数据挖掘的基本任务与要解决的问题(数据挖掘入门)

数据挖掘技术的基本任务主要体现在:

1)分类与回归

2)聚类

3)关联规则

4)时序模式

5)偏差检测

一、分类与回归

    分类:指将数据映射到预先定义好的群组或类。

        因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。 

   分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成 

  • 模型创建:通过对训练数据集的学习来建立分类模型。 
  • 模型使用:使用分类模型对测试数据和新的数据进行分类。

    其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出。

     回归:用属性的历史数据预测未来趋势。 
      回归首先假设一些已知类型的函数(例如线性函数、Logistic 函数等)可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。

     回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题。但数据挖掘业界普遍认为:用预测法预测类标号为分类,预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决,许多非线性问题可以通过对变量进行变化,从而转换为线性问题来解决。当然也有非线性解决方法,如SVM、神经网络。


                                                             主要的分类与回归算法


二、聚类

  聚类分析:是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类又称为无指导的学习。 
    与分类不同,分类需要先定义类别和训练样本,是有指导的学习。聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性,就可以完成聚类任务。 
    聚类的输入是一组未被标记的数据,根据数据自身的距离或相似度进行划分。划分的原则是保持最大的组内相似性和最小的组间相似性,也就是使不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。比如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者,尤其对投资基金的人来说,可能是很重要的信息。当然,聚类除了将样本分类外,还可以完成孤立点挖掘,如将其应用于网络入侵检测或金融风险欺诈探测中。 

主要的的聚类算法  

 

三、关联规则

关联规则:揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。 

关联分析的任务就是发现事物间的关联规则或称相关程度。关联规则的一般形式是:

   如果A发生,则B有百分之C的可能发生。C称为关联规则的置信度(Confidence)。  

   利用关联分析能寻找数据库中大量数据的相关联系,常用的两种技术为: 

   关联规则,用于发现一个事物与其他事物间的相互关联性或相互依赖性,如分析客户在超市买牙刷的同时又买牙膏的可能性。 

   序列模式分析,将重点放在分析数据之间的前后因果关系,如买了电脑的顾客会在三个月内买杀毒软件。 

   相信大家都听说过“尿布与啤酒”的故事。在某超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有 30%~40%的人同时也为自己买一些啤酒。 

    产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 

    按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 

关联规则算法

 

四、时序模式  

    时序模式:描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。 

    与回归一样,它也用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。序列模式将关联模式和时间序列模式结合起来,重点考虑数据之间在时间维度上的关联性。时序模式包含时间序列分析和序列发现。

    时间序列分析:用已有的数据序列预测未来。在时间序列分析中,数据的属性值是随着时间不断变化的。回归不强调数据间的先后顺序,而时间序列要考虑时间特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。 

   序列发现:用于确定数据之间与时间相关的序列模式。这些模式与在数据(或者事件)中发现的相关的关联规则很相似,只是这些序列是与时间相关的。

时间序列的组合成分

    时间序列的变化主要受到长期趋势、季节变动、周期变动和不规则变动这四个因素的影响。其中: 
    长期趋势因素(T)反映了经济现象在一个较长时间内的发展方向,它可以在一个相当长的时间内表现为一种         近似直线的持续向上或持续向下或平稳的趋势。 
    季节变动因素(S)是经济现象受季节变动影响所形成的一种长度和幅度固定的周期波动。 
    周期变动因素(C)也称循环变动因素,它是受各种经济因素影响形成的上下起伏不定的波动。 

    不规则变动因素(I)不规则变动又称随机变动,它是受各种偶然因素影响所形成的不规则变动。

   注:回归与时序模式的异同,可参考《时间序列分析与回归分析之异同》

时间序列分析算法

五、偏差检测

偏差:是对差异和极端特例的表述,如分类中的反常实例、聚类外的离群值、不满足规则的特例等。

偏差检测:用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化。如果是异常行为,则需提示采取预防措施,尽早防范。

注意:

大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。

    数据挖掘是目的,即知识发现,数据挖掘从这个词演变而来的。有人说,机器学习与数据挖掘是并列关系,本人不敢苟同。数据挖掘的角度任务,机器学习的角度是方法。

参考文献:

 [1]张良均,陈俊德.数据挖掘使用案例分析[M].机械工业出版社,2013.6.23-32.




  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用! 2.主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时私信沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【资源说明】 基于Python实现的电商评论数据挖掘观点抽取、句子级观点级情感分析系统源码+项目运行说明.zip 如英文名所表明的那样,我起初是希望能构建并实现一个针对网络评论文本数据进行数据挖掘的项目(包括并不限于:爬虫、文本处理、情感分析和與情分析等等),但最后还是没太做的太深,只是实现了一个项目的雏形吧,姑且称它为COI Demo。它目前能实现的功能如下: 1. 电商评论爬虫(Web Crawler) 2. 句子级情感分析(Sentence-level Sentiment Classification) 3. 观点级情感分析(Aspect-level Sentiment Classification) 4. 观点抽取(Opinion Target Extraction) 观点级情感分析 代码过程与上面的句子级情感分析类似。 #### 1. 数据预处理 ``` # 开始数据预处理 cd SA/data python data_preprocess_task2.py ``` #### 2. 模型训练、验证及预测 ``` cd SA/source python run_bert_2562_task2.sh ``` #### 3. 结果后处理 这里统一处理句子级情感分析和观点级情感分析的结果,分别对它们各自的5折结果进行投票,最后后处理成符合提交格式的结果文件。 ``` python source/post_process.py ``` ### 四、观点抽取 观点抽取是用算法从指定文本中抽取处理文本的评价对象,例如:OPPO FIND X2是一部很好的旗舰级手机。那么观点抽取算法会得到:OPPO FIND X2。 #### 1. 数据预处理 观点抽取本质上就是命名实体识别NER任务,只不过不需要很复杂BIO去识别出实体的类型,如地点机构人物,只用简单的BIO就行了。所以要先对数据进行预处理成以BIO标注格式的数据。但首先也要先将之前我们下载好的RoBERTa-wwm-ext-large模型文件夹内的文件放在``NER/prev_trained_model/bert-base/``下,而且还要把之前解压出的COTE-BD、COTE-DP和COTE-MFW数据文件夹放置在``NER/datasets/AE/``下面,然后再进行数据预处理: ``` cd NER cd python data_preprocess_single_word.py ``` 最后``NER/datasets/AE/``下会出现以“_new2”为结尾的新数据集,都是预处理好的。 #### 2. 模型训练、验证及预测 此时,依次将不同数据集放入cner分别训练、验证及预测。因为COTE没有验证集,所以暂由train代替dev。因此在``run_ner_softmax.py``中第203行改为train。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值