数据仓库简介

什么是数据仓库

        数据仓库是一种服务于某种特定目的的决策支持,解决多种数据源之间的相容问题,供数据查询分析的一种技术。

什么要使用数据仓库

       企业为了更好的对大量数据进行分析,就需要进行数据仓库的建立。企业建立数据仓库是为了服务某种特定的业务支持,

       而不能为了建立数据仓库而建立数据仓库。

数据仓库的定义

        面向主题的:主题是一个抽象的概念,简单的说就是与业务相关的数据的集合,每一个主题基本对应一个宏观的分析领域。

        集成的:数据仓库的数据整合了来自不同数据结源的数据

        随时间变化:数据仓库中的数据是有大量历史数据的

        不易丢失:一旦进入数据仓库中,数据就不应该再有改变

数据仓库架构

数据仓库的架构就是构成数据仓库的组件及其组件间的关系

        基本架构

 

数据集市架构

独立数据集市集中于部门所关心的单一主题域, 数据以部门为基础部署
优点:方便实施

缺点:每个部门存在一个数据集市,那必然存在数据歧义问题,数据重叠问题,需求变化时不方便扩展,部门间协同不方便

 

从属数据集市架构

 为了克服数据集市的缺点

 

 Inmon企业信息工厂架构

 

Kimball数据仓库架构
 

 

混合型数据仓库架构

 

ETL 过程

在数据仓库的开发过程,ETL是一个占用大量时间且决定着数据仓库好坏的关键。

它是Extract、 Transform、 Load三个英文单词首字母的简写, 中文意为抽取、 转换、 装载。
其实建立一个数据仓库, 就是要把来自于多个异构的源系统的数据集成在一起, 放置于一个集中的位置用于数据分析。

如果一开始这些源系统数据就是兼容的当然最好,但情况往往不是这样。 ETL系统的工作就是要把异构的数据转换成同构的。

如果没有ETL, 不可能对异构的数据进行程序化的分析。
 

抽取

数据抽取有逻辑抽取与物理抽取,在抽取中有个难点---如何识别变化的数据 

全量抽取与增量抽取是逻辑抽取, 联机抽取与脱机抽取是物理抽取

数据转换

数据转换一个最重要的功能是清洗数据, 目的是只有“合规”的数据才能进入目标数据仓库。
数据从操作型源系统获取后, 需要进行多种转换操作。 如统一数据类型、 处理拼写错误、 消除数据歧义、 解析为标准格式等。
 

数据装载

ETL的最后步骤是把转换后的数据装载进目标数据仓库。

这步操作需要重点考虑两个问题:

1.数据装载的效率问题,

2.一旦装载过程中途失败了, 如何再次重复执行装载过程。
 

几个术语解释

操作型系统

操作型系统是一类专门用于管理面向事务的应用的信息系统。

在数据库使用上, 操作型系统常用的操作是增、 改、 查, 并且通常是插入与更新密集型的,

同时会对数据库进行大量并发查询, 而删除操作相对较少。 操作型系统一般都直接在数据库上修改数据, 没有中间过渡区。

 

分析型系统 

分析型系统的特征是相对少量的事务, 但查询通常非常复杂并且会包含聚合计算
分析型系统的典型应用包括销售业务分析报告、 市场管理报告、 业务过程管理(BPM) 、 预算和预测、 金融分析报告及其类似的应用。

 

操作数据存储又称为ODS, 是Operational Data Store的简写
操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。

操作数据存储的作用:

      1. 充当业务系统与数据仓库之间的过渡区

           一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之               中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些               数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,             而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。

      2. 转移部分业务系统细节查询的功能

           在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运             行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生               的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。

      3. 完成数据仓库中不能完成的一些功能

            一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细               节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS               来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值