可挖掘的数据类型
1. 数据库数据
数据库系统,也成数据库管理系统(DBMS),由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。
关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性描述。通常为关系数据库构建语义数据模型,如实体-联系(ER Entity-Relation)数据模型。ER数据模型将数据库表示成一组实体和它们之间的联系。
关系数据库是数据挖掘的最常见、最丰富的信息源,因此它是数据挖掘研究的一种主要数据形式。
2. 数据仓库
数据仓库是一个从多个数据源手机的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
为便于决策,数据仓库中的数据围绕主题(如顾客、商品、供应商和活动)组织。数据存储从历史的角度提供信息,并且通常是汇总的。
通常,数据仓库用称作数据立方体(data cube)的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如count或sum。数据立方体提供数据的多维试图,并允许预计算和快速访问汇总数据。
通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理。OLAP操作使用所研究的数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户角度。OLAP操作的例子包括下钻(drill-down)和上卷(roll-up),它们允许用户在不同的汇总级别观察数据。
3. 事务数据
事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一个组成事务的项(如交易中购买的商品)的列表。事务数据库可能有一些与之相关联的附加表,包含关于事务的其他信息,如商品描述、关于销售人员或部门信息等。
4. 其他类型的数据
出关系数据库数据、数据仓库数据和事务数据外,还有许多其他类型的数据,他们具有各种各样的形式和结构,具有很不相同的语义。如时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据)、数据流(例如视频监控和传感器数据,他们连续播送)、空间数据(如地图)、工程设计数据(如建筑数据、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、图和网状数据(如社会和信息网络)和万维网(有Internet提供的矩形、广泛分布的信息存储库)。
由于数据来源的多样性和数据的复杂性,导致数据清理和数据集成都比较困难。但是由于多个数据源的相互提升与加强,挖掘复杂对象的多个数据源常常有惊奇的发现。