数据分析 - 数据挖掘之第一章：数据挖掘原理 - 第一节：数据挖掘任务

最新推荐文章于 2024-01-02 01:20:54 发布

开码牛

最新推荐文章于 2024-01-02 01:20:54 发布

阅读量2.6k

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/helunqu2017/article/details/118873320

版权

数据分析专栏收录该内容

35 篇文章 8 订阅

订阅专栏

数据挖掘任务主要有很多种，常见的有分类、聚类、预测等，若按算法可分为两大类：无监督学习、有监督学习。

1.分类学习

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法（K Nearest Neighbor Algorithm）、决策树算法、贝叶斯分类和支持向量机算法（Support Vector Machine）等等。

2.聚类分析

聚类就是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。

3.预测分析

预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。

4.关联规则

关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

5.异常检测

异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点换言之，一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。

6.描述统计

描述统计是数据挖掘最基础的方法，几乎每数据挖掘项目都先做些常规描述统计，以了解数据或业务整体状况。描述统计的目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹和异常）。本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证和解释结果。