1.挖掘的数据类型
数据挖掘能被应用于任何对目标应用有意义的数据类型最基本的形式有:
- 数据库数据
- 数据仓库数据
- 事务处理数据库数据
- 其他类型的数据
1.1 数据库数据
- 数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组存取数据的软件程序组成。
- 软件程序提供如下的机制:定义数据结构和数据存储,确保存储的信息的一致性和安全性。
1.2 数据仓库数据
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
1.3 数据立方体
通常,数据仓库用称作“数据立方体”的多维数据结构建模。其中,每个维对应模式中的一个或一组属性,而每个单元存放某种聚集度量值。数据立方体的操作还包括切片、切块儿、旋转等。
在数据挖掘中 ,允许在各种力度进行多维组合探查,因此更有可能发现代表知识的有趣模式。
1.4 事务处理数据库数据
通常事务处理数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。一般情况下一个事务包含一个唯一的事务标识号,以及一个组成事务的项的列表。
传统的数据库系统不能做这种商业分析。但是基于交易数据的数据挖掘能够发现这种频繁模式,即发现那些商品会被一起经常购买。
1.5 其他类型的数据
其他类型的数据包括:
- 时间相关的数据和序列数据(历史记录,股票交易)
- 数据流(视频监控和传感器数据)
- 空间数据(地图)
- 工程设计数据(系统部件和集成电路)
- 超链接和多媒体数据(文本、图像、音频和视频)
- 图数据和网络数据(社会和信息网络)
- web数据等等(HTML等)
图数据和网络数据(社会和信息网络)
- web数据等等(HTML等)