数据挖掘基础

数据挖掘起源:需要是发明之母。存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广发用于各种应用,如:商务管理、生产控制、市场分析、工程设计、和科学探索。

数据挖掘的作用:
分类
估计
预测
相关性分组或关联规则
聚类
描述和可视化
复杂数据类型挖掘(text web 图形图像 视频 音频)

数据挖掘分类
直接数据挖掘 前三个:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库表中的属性,即列)进行描述。
间接数据挖掘 后四个:目标中没有选出某一具体的变量,用模型进行描述;而是在所有变量中建立起某种关系。

分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
注意:类的个数是确定的,预先定义好的。

估值:估计与分类类似,不同之处在于,分类描述的是离散变量的输出,估值处理连续值的输出;分类数据挖掘的类别是确定数目的,估值的量是不确定的。

预测:预测是通过分类或估值其作用的,通过分类或估值取出模型,该模型用于对未知变量的预言。

相关性分组或关联规则:决定哪些事情将一起发生。
例子:超市客户在购买a 的同时,经常会购买b。即a>=b(关联规则)
      客户在购买a后,隔一段时间,会购买b(序列分析)

聚类:是对记录分组,把相似的记录记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例子:一些特定症状的聚集可能预示了一个特定的疾病。
      租vcd类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。

描述和可视化:是数据挖掘的结果。

实现数据挖掘的步骤:
1、理解数据和数据的来源
2、获取相关知识与技术
3、整合与检查数据
4、去除错误或不一致的数据
5、建立模型金额建设
6、实际数据挖掘工作
7、测试和验证挖掘结果
8、解释和应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值