第1章 引论
1.1 什么是数据挖掘?
数据挖掘是一个多学科领域,数据挖掘可以用多种方法定义。它也是数据中的知识发现(KDD)的同义词。而另一些人只是把数据挖掘视为只是发现过程的一个基本步骤。具体步骤:
- 数据清洗
- 数据集成
- 数据选择
- 数据变换
- 数据挖掘
- 模式评估
- 知识表示
1.2 什么类型数据可以挖掘?
数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。在应用中,数据最基本形式就是**(1)数据库数据(2)数据仓库数据(3)事务数据**。本书提供的概念和技术集中考虑这类数据。当然数据挖掘也可以用于其他类型数据(例如:数据流、有序/序列数据、图和网络数据、空间数据、文本数据、多媒体数据和万维网)
1)数据库数据
数据库系统,也称之为数据库管理系统(DBMS),由一组内部相关的数据(称之为数据库)和一组管理和存取数据的软件程序组成。当数据挖掘用于关系数据库时,可以进一步搜索趋势和数据模式。关系数据库时数据挖掘最常见、最丰富的信息源,因此数据库数据是数据挖掘研究的一种主要数据形式。
2)数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。