数据仓库的数据采集
许多部件构成了数据仓库系统。这个系统从现有的操作系统开始,一部分为支持数据仓库而设的后台处理,以访问和运用数据仓库内数据的用户工具而结束。在中间是个分散过程,它使数据以一种局部而不是集中的方式来支持用户。至于其他系统,则是覆盖这些处理过程技术的基础,如安全系统,它不仅控制着在终端数据仓库的输入过程,还控制着用户在数据仓库的前台访问能力。数据仓库处理的部件如图:
后置处理 中间处理 前置处理
安全处理 |
用户查询 |
操作系统数 据存储器 |
数据的转 换和清理 |
数据仓库 |
部门数据中心 |
多维数据中心 |
后台处理
数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占有活动区域:这个处理包括以下几个部分:
数据处理 为数据仓库收集数据的过程是从当前操作系统开始的。该数据仓库的后台处理需要被分成可管理的几个处理模块。操作系统生成必须处理和输入到数据仓库的事务。在数据仓库系统的结构内必须有一种方法来截取和收集那些在操作系统内已改变的数据,主要用于数据仓库的输入处理。
数据采集 在收集到操作数据存储器内的变化后,数据仓库的后台处理必须采集所有同以前收集的事务相关的数据。数据采集过程通常仅仅获取驱动数据采集过程的关键信息。
后台处理把数据制备成事务库并用它来更新和供给数据仓库系统。这个过程在整个数据仓库系统中是最复杂的,因为用户正处理多种遗留数据源。这些数据源中的一些较为容易使用,而大部分则不是这样。
中间处理
数据仓库系统的中间处理利用了一个登台区域来完成在数据仓库中对用户游泳的数据。登台区域有时被叫正式地指定为操作数据存储器。
数据清理 在收集到所有从操作系统存储器得来的相关信息后,数据必须在放入数据仓库之前进行清理,以获得一个适当的统一的格式和定义。
数据的放置和分发 当完成数据清理后,数据就必须放置到数据仓库中。
标准报表的编译和索引 在数据已放入数据仓库数据存储器之后,对包含于数据仓库系统内的标准报表必须进行编译和索引。在这个过程结束后,报表很像数据仓库内的原始数据,将让用户在线有用,不必用纸张的形式发送。
中间处理更新了数据仓库中登台区域的数据,并使之成为可供最终客户,也就是数据仓库系统的用户使用的信息库。
前台处理
前台处理过程涉及到允许用户对数据仓库所包含的信息进行正确的访问,及提供用户工具集所需的目录和中间数据信息。大多数数据仓库项目的目标应当是驱使这一过程进入强大的用户领域,并脱离信息系统空间。然而,需要构造几个关键的应用程序以用于经验不足的数据仓库用户。该过程的任务包括用新的信息内容来更新访问数据仓库的应用程序,通过适当的用户工具组内的视图或分类定义来提高访问能力。
数据仓库的技术体系结构
虽然普遍认为数据仓库系统能够改善最终用户查询、报表生成和DSS能力,而且能帮助组织投入公司数据以获取市场竞争优势,但在数据仓库系统构成方面看法却不尽相同。数据仓库的技术体系结构如下图:
外部数据 |
源数据 |
信息目录模块
数据仓库之元数据 |
数据管理员模块
数据仓库之数据 |
数据获取模块 |
数据传递模块 |
中间件
模块 |
数据访
问模块 |
设计模块 |
管理模块 |
外部元数据 |
● 设计模块:用于设计数据仓库数据库
● 数据获取模块:用于从源文件和源数据库中获取数据,并进行清洁、传输,将它加到数据仓库数据库中
● 管理模块:用于管理数据仓库的运行
● 信息目录模块:用于为管理者和企业用户提供有关存储在数据仓库数据库中的数据的内容和含义信息
● 数据访问模块:用于为企业的最终用户提供访问和分析数据仓库数据的工具
● 中间件模块:用于最终用户工具提供访问数据仓库数据库的方法
● 数据传递模块:用于向其他仓库和外部系统中分配数据仓库数据
数据仓库的三个重要组成部分,专家们一般把整个数据仓库的建设按照其不同性质,把它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现。现在讲的最多的OLAP分析和决策支持等,都是属于数据呈现的部分,下面我们来讲一讲数据准备阶段的问题。
数据的有效性检查
为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行刃具的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。
检查数据仓库中数据的有效性是一个非常耗时但必不可少的过程。建议该过程应高度自动化。SQL Server7中有许多内置功能,可自动进行数据有效性检查。
清除和转换数据
有效性检查是决定是否符合给定标准的过程。标准是依赖于安装的,为某个站点开发和执行的标准可能在其他地方毫无意义。如果数据不在给定的界限之内,它就成为我们称作scrubbing(清除)过程的对象。清除数据包括对那些在给定范围之外的数据采取纠正措施。
数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。
在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于数据仓库设计。在太多数情况下,转换是将数据汇总,以使它更有意义。
在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。
除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准,常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化,包括复杂问题,如掩匿的数据、传统标准的缺乏及不统一的关键数据。
提取处理是数据仓库成功的关键。在提取过程中,数据会被格式化,并分发给需要从操作环境中共享数据的资源。元数据存储的工作是定义和解释数据资源和数据标准。因此,在操作数据上执行的转换过程应该用元数据存储中定义的标准数据格式放置数据。
我们可以定义数据变换的几个基本类型,每一类都有自己的特点和表现形式:
● 简单变换。
简单变换是所有数据变换的基本构成单元。这一类中包括的数据处理一次只针对一个字段,而不是考虑相关字段的值。
● 清洁和刷洗。
目的是为了保证前后一致地格式化和使用某一字段或相关的字段群。
● 集成。
集成是将业务数据从一个或几个来源中取出,并逐字段地将数据影射到数据仓库的新数据结构上。
● 聚集和概括。
聚集和概括是把业务环境中找到的零星数据压缩成数据仓库环境中的较少数据块,有时进行聚集中的细节数据是为了避免仓库存入业务环境中的那样具体的数据,有时则是为了建立包括仓库的聚集副本或概括副本的数据商场。
简单变换
顾名思义,它是数据变换中最简单的形式,这些变换一次改变一个数据属性而不考虑该属性的背景或与它相关的其他信息。
○数据类型转换
最常见的简单变换是转换一个数据元的类型。当现有应用程序存储某个类型的数据只在该应用程序的背景下有意义,在企业水平上却没有意义时,就常常要求进行这类变换。
这类转换可以通过编码程序中的简单程序逻辑完成,或者运用数据仓库数据变换工具完成。
○日期/时间格式的转换
因为大多数业务环境都有许多不同的日期和时间类型,所以几乎每个数据仓库的实现都必须将日期和时间变换成标准的仓库格式。这可以通过手工程序编码来完成。它能把一个日期或时间字段拆成几个子部分,然后再将它们拼成想要的字段。然而市场上的大多数数据变换工具只提供了日期和时间格式之间迅速进行简单转换的设施,而手工编码上下的功夫要少得多。
○字段解码
简单地说,数据一般不应该以编码的格式放在数据仓库中。我们在业务数据库中建立代码是为了节省数据库存储空间。虽然人不理解这些代码,但这并不是大问题,因为我们与那些代码的交互作用是由应用程序管理的。这些程序在必要的时候会成为我们破解那些值的代码。
在数据仓库环境中,情况就大不一样了。因为拥护可能来自公司的任何部门,所以仓库的所有用户不可能都有足够的背景知识和培训,使
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/9293527/viewspace-906160/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/9293527/viewspace-906160/