复习笔记
- 数据挖掘定义
- 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
- Data mining consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, produce a particular enumeration of patterns over the data [Fayyad et al.,1996].
- 知识发现过程(KDD:Knowledge Discovery in Database)
- 数据清理:消除噪声和删除不一致数据
- 数据集成:多种数据源可以组合在一起
- 数据选择:从数据库中提取与分析任务相关的数据
- 数据变换:把数据变换和统一成适合挖掘的形式
- 数据挖掘:核心步骤,使用智能方法提取数据模式
- 模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式
- 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
- 数据挖掘主要任务
- 关联规则挖掘(关联分析)
- 聚类分析
- 将类似的数据归类到一起,形成一个新的类别进行分析
- 最大化类内的相似性和最小化类间的相似性
- 分类/预测
- 找出描述和区分数据类/概念的模型,用以预测未知的对象类标签
- 决策树、人工神经网络等
- 孤立点(离群点)分析