1. 什么是数据挖掘
- 数据挖掘DM(Data Mining):从数据中发现知识
- 数据挖掘定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则
- 这个定义包括以下几层含义:
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的问题
2. 数据挖掘可以挖掘的模式类型
2.1 关联分析(描述)
关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。
广泛的用于购物篮或事务数据分析
2.2 聚类分析(描述)
聚类分析:最大化类内的相似性和最小化类间的相似性(无监督的学习方法),没有预先定义的类
找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。
2.3 分类(预测)
反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识 (有监督的学习方法),有预先定义的类。
例如:垃圾邮件的识别
通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类
2.4 孤立点(离群点)分析(预测)
孤立点分析:对差异和极端特例的描述
孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;孤立点不一定都是没有价值的
异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式