数据挖掘基础

最新推荐文章于 2023-04-05 19:29:19 发布

idea_zbm

最新推荐文章于 2023-04-05 19:29:19 发布

阅读量675

点赞数

本文链接：https://blog.csdn.net/m0_37751917/article/details/80453496

版权

数据挖掘起源：需要是发明之母。存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广发用于各种应用，如：商务管理、生产控制、市场分析、工程设计、和科学探索。

数据挖掘的作用：
分类
估计
预测
相关性分组或关联规则
聚类
描述和可视化
复杂数据类型挖掘（text web 图形图像视频音频）

数据挖掘分类
直接数据挖掘前三个：目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库表中的属性，即列）进行描述。
间接数据挖掘后四个：目标中没有选出某一具体的变量，用模型进行描述；而是在所有变量中建立起某种关系。

分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。
注意：类的个数是确定的，预先定义好的。

估值：估计与分类类似，不同之处在于，分类描述的是离散变量的输出，估值处理连续值的输出；分类数据挖掘的类别是确定数目的，估值的量是不确定的。

预测：预测是通过分类或估值其作用的，通过分类或估值取出模型，该模型用于对未知变量的预言。

相关性分组或关联规则：决定哪些事情将一起发生。
例子：超市客户在购买a 的同时，经常会购买b。即a>=b（关联规则）
客户在购买a后，隔一段时间，会购买b（序列分析）

聚类：是对记录分组，把相似的记录记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。
例子：一些特定症状的聚集可能预示了一个特定的疾病。
租vcd类型不相似的客户聚集，可能暗示成员属于不同的亚文化群。

描述和可视化：是数据挖掘的结果。

实现数据挖掘的步骤：
1、理解数据和数据的来源
2、获取相关知识与技术
3、整合与检查数据
4、去除错误或不一致的数据
5、建立模型金额建设
6、实际数据挖掘工作
7、测试和验证挖掘结果
8、解释和应用