本文其它章节:
漫谈大数据仓库与挖掘系统(一):大数据的价值
漫谈大数据仓库与挖掘系统(二):层次、维度与主题
在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一便是其的“集成性”:不同的数据来源、不同的形式的数据集中在一处,在数据仓库系统中进行分析。这便是一个数据仓库系统的ETL的第一个步骤。所谓的ETL,便是Extraction-Transformation-Loading, 数据的提取、转换和装载到数据仓库的过程。数据从前端的业务系统中,装载到数据仓库中。在这个过程中,我们从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
说到数据源,当然指的便是业务系统中的各个数据来源,例如我们的各个网站或者C/S(客户端/服务器)系统中后台的各种数据库,如MySQL、SQLServer、Oracle、DB2等,如果再考虑到“全民信息挖掘系统”的特性,我国不少政府部门的业务数据库还在使用M$的FoxPro和Accessÿ