数据处理新技术
1.数据仓库与数据挖掘
面对数据大爆炸似的增长,人们对数据重要性的认识也与日俱增。面对逐步增长的海量数据,如何进行处理成为了棘手的问题。如果为了节省存储空间而将数据删除便有可能丧失数据中蕴藏的价值,因而建立数据仓库,将有分析价值的历史数据存放其中,综合利用各种数据挖掘方法,建立分析模型,挖掘出符合规律的规则,用于事务的预测或决策中。
1.1 数据仓库
数据仓库(Data Warehouse)是一种数据库环境。目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon给出的:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。”简单理解,数据仓库是一种有规则的数据集合,一种多维的数据立方体。
数据仓库具有如下特点:
数据仓库的数据面向主题
数据仓库的数据是集成的
数据仓库的数据相对稳定
数据仓库的数据反应历史变化
ETL(Extract-Transform-Load)是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL过程是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程(图7.1),用来描述操作型数据转换成调和数据的过程,分为抽取、清洗、转换、加载与索引,这些过程可以进行不同的组合。
1.2 数据挖掘
数据挖掘(Data Mining)又译为资料探勘、数据采矿。它是数据库知识发现(KnowledgeDiscovery in Databases,简称KDD)的延伸。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中前所未知的有价值的模式信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘的数据源可以来源于数据仓库,也可来源于数据库。从数据仓库中进行数据挖掘有许多好处,因为数据仓库中的数据经过了数据处理&#