第一章 绪论
什么是数据挖掘?
-
过程:输入数据->数据预处理->数据挖掘->后处理->输出信息
-
数据预处理:
- 特征选择
- 维归约
- 规范化
- 选择数据子集
-
后处理:
- 模式过滤
- 可视化
- 模式表示
数据挖掘的起源
- 汇集其他学科的知识:
- 来自统计学的抽样、估计和假设检验
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
- 需要其他领域的支撑:
- 数据库技术
- 并行计算
- 分布式计算
数据挖掘任务
两大类任务
- 预测任务:
- 自变量 & 因变量
- 描述任务
- 导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)
四中主要数据挖掘任务
-
聚类分析
- 旨在发现紧密相关的观测值组群
- 使得组内的distance最小,组间的distance最大
- 针对大型的数据,从每个类别之间对数据进行采样,期待采样的数据能代表原始数据集的特征,在采样的数据中进行挖掘。
<