数据挖掘基本概念
数据挖掘是一个从大规模数据集中提取隐含的、以前未知的、有潜在应用价值信息的非平凡过程。
-Non-trivial extraction of implicit , previously unknown and potentially useful information from massive collection of data.
与数据库技术的区别
1.数据库技术:从大量的数据里找某个数据,或是简单的数据统计信息。 好比在草堆里找别针。
2.数据挖掘找的不是一个已存在那里的信息。 好比是要设法搞清楚在草堆里有一根针,会造成什么样的后果。
数据挖掘过程
详细过程
- 了解应用领域,掌握相关先验知识以及应用的目标
- 收集并集成数据
- 对数据进行清洁和预处理
- 对数据进行归约和投影(发现有用特征,降维和变量约简)
- 确定适当的数据挖掘功能(总计、分类、回归、关联、聚类)
- 确定数据挖掘算法,并进行数据挖掘
- 对挖掘结果进行评估
- 对挖掘结果进行解释:分析结果
- 应用发现的知识