数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第一节:数据挖掘任务

数据挖掘任务主要有很多种,常见的有分类、聚类、预测等,若按算法可分为两大类:无监督学习、有监督学习。

1.分类学习

  分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(K Nearest Neighbor Algorithm)、决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。    

2.聚类分析

  聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。

3.预测分析

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。

4.关联规则

  关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

5.异常检测

异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。

6.描述统计

描述统计是数据挖掘最基础的方法,几乎每数据挖掘项目都先做些常规描述统计,以了解数据或业务整体状况。描述统计的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证解释结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值