数据仓库的组成

简介

[@more@]

回顾数据仓库的定义

什么是数据的非易变性?

从操作型系统中提取的数据和从外部数据源中取得的数据,在数据仓库中被转换、整合、存储。数据仓库中的数据不是用来进行每天的商业交易的。当你想要处理一个客户的下一张订单时,你不能从数据仓库中得到当前存货的状态。在数据仓库中,你只保存过去的存货状态信息,你也不需要根据你的每一笔订单来实时地更新数据仓库。

一旦数据存入了数据仓库,你就不能对这个数据进行修改。数据仓库中的数据不像操作型系统中的数据那样,可以随时修改。数据仓库中的数据是用来查询和分析的。

什么是数据粒度?

在操作型系统中,数据存储非常详细。比如销售数据会记录每一笔交易,一旦你要汇总数据,你需要将这些单独的交易数据累加。如果你需要某个月的订购情况,那你要将这个月的所有明细都调出来,然后相加。在操作型系统中,一般不保留这一加和数据。

当用户需要查询数据仓库来进行分析工作的时候,他通常首先看加和数据、总体情况。下一步才是看每个地区、每个办事处的情况。一般来讲,用户习惯于从高层次向低层次的细节过渡。

因此,在数据仓库中,会按不同层次组织数据的存储。根据查询的需要,你能够得到不同级别的细节情况。数据粒度就是指这种细节的级别。越下层的数据,数据粒度的越小。

典型的三个数据层次:日报表、月报表、季报表

数据仓库的组成

l 源数据部分

l 数据准备部分

l 数据存储部分

l 多维数据库和数据集市

l 数据挖掘、OLAP、查询与报表

2.1 源数据的四种类别

生产数据:在用的操作型系统的数据。

The significant and disturbing characteristic of production data is disparity. Your great challenge is to standardize and transform the disparate data from the various production systems, convert the data, and integrate the pieces into useful data for storage in the data warehouse.(生产数据的重要烦人的特性是多样性。你面临的最大挑战是如何将这些从不同生产系统得到的多种数据进行标准化,并将它们转换、整合成数据仓库可以存储的有用数据)

内部数据:每一个组织中的用户,所拥有的电子表格、文档、客户信息等。你不能忽略这些存在于私人资料中的内部数据。

存档数据:生产数据的历史备份数据

外部数据:本行业的统计数据、竞争者的市场占有率数据等等,有助于分析决策的数据。

2.2 数据准备部分

为了将源数据存入数据仓库,有三个主要的程序需要完成:抽取、转换、加载(ETL

数据抽取E:可以购买专用的工具软件,也可以自己开发抽取程序。常见的方法是将数据抽取到一个独立的物理环境中。

数据转换T:在这个阶段中,有以下几个单独的步骤:对不同来源的数据进行清洗,如更正错误、检查逻辑矛盾或者补充遗失数据的默认值,也可以排除从多个数据源系统中取同一个数值时出现的重复问题。

在转换过程中,也包括对数据元素的标准化,比如对同类数据元素的长度进行标准化、语义的标准化。语义标准化指的是解决异形同义、同音异义的问题。比如不同的字段名代表同一个元素或者反之,相同的字段名代表不同的元素。

对数据的分类与聚类大部分工作是在数据转换阶段完成的。数据转换还包括适当的数据汇总。在数据仓库中,没有必要将数据存储到像操作型系统那样的细节程序。

数据装载L:数据装载包括初始基础数据的加载和源数据变动的加载

2.3 数据存储部分

操作型系统通常只包含当前的数据,而数据仓库中需要存储分析用的大量历史数据,而且必须使这些数据的结构和格式适合分析工作,而不是适合快速检索的单条信息。数据仓库中的数据库可以是关系数据库管理系统,也可以使用多维数据库管理系统。如果使用多维数据库,就需要对数据仓库中抽取的数据进行加和,加和后的数据存储在多维数据库里。这种多维数据库通常是专卖产品。

2.4 数据传递部分

在数据仓库有了数据之后,就可以对外进行信息的传递,这包括:提供定制的报表、复杂的查询、进行多维分析、提供给数据挖掘需要的数据。

2.5 元数据部分

元数据是数据仓库的数据字典,它保存了数据仓库本身的信息。元数据包括操作型元数据、抽取和转换元数据、最终用户元数据。

2.6 管理和控制部分

这部分对数据仓库中的服务和活动起协调作用。它控制了数据转换和将数据装载存储器的工作。它监视数据进入准备区及从准备区转输到存储器的过程。元数据是管理模块的数据来源。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/271063/viewspace-927143/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/271063/viewspace-927143/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值