数据仓库

数据仓库定义:面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。简单的讲,就是一个数据快照的集结地,数据按照给定的间隔时间取自事物处理系统OLTP系统。

面向主题:通常oltp系统处理的是企业某个子集的信息,如:某零售商可能有几个独立的订货登记系统,POS、经销商系统、B2C电子商务系统等,每个系统都支持各自手机的信息查询,但是如果要查询所有销售情况呢?数据仓库必须面向主题域来组织数据,比如按照销售主题来组织数据,而不是围绕OLTP数据源。

集成性:同样上面的例子,有可能多个独立系统的数据编码或者口径都有各自风格,那么进入数据仓库,则必须具有统一的编码规则。

稳定性:数据仓库主要用于数据的读取产生报告,所以是只读的,这也是与OLTP事务处理系统的重要区别。就像历史不能回写一样的道理。

不同时间:如果信息没有时间成分,那么大部分数据将失去意义。数据仓库的时间性还体现在数据的时间概要上,这可大幅改善数据仓库的查询响应时间。

建设数据仓库的指导性原则:客观,从业务开始而不是技术,什么东西该进入数据仓库,数据集市还是数据仓库,参照完整性,逆规范化设计,数据仓库分层建设

数据仓库分层建设:1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大;3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据仓库标准上可以分为四层

ODS(临时存储层)主要负责采集业务系统并保存一定期限内的相关业务数据。当然也可以满足用户对明细数据的查询要求,姑且可以算作明细数据仓库。

PDW(数据仓库层)

MID(数据集市层)

APP(应用层)

数据集市与星型模型

数据仓库为数据集市提供数据,而数据集市为最终用户提供数据。数据集市是一种数据库,它和数据仓库在许多特性方面类似,只是在规模较小。像数据仓库一样,数据集市也是具有面向主题、集成的、稳定的、不同时间的特点。数据仓库专注整个公司或集团的需求,而数据集市面向特定领域或部门服务,我们实践上来看,虽然数据仓库也能提供终端用户的数据访问的能力,但是我们一般都是采取开放数据集市的访问的方式进行数据的展示。

星型模式(也成为数据立方体或多维模式),是关系环境中建立高性能数据集市数据结构的最为普遍的方法。星型模型最终的目的是尽量的接近一个平面文件,并减少与之相关的一些负面影响。在星型模型中,为了能达到比高度规范化结构更高的性能的关键是限制必须建立的连接的数量并降低连接的复杂程度。一个星型模型有两类的基本表组成,一类是事实表一类是维度表,事实表包含实际事务或者要分析的数值,而维度表包含有关这些事务或者数值的描述信息。而雪花模型是星型的一种异变模型,它与星型模式的区别在于对大维度表的处理,将超大维度表规范化为多个子维度表。

OLAP分析(在线联机分析处理),又称为多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反应企业维i特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合,它的直接产物就是CUBE(立方体)。

 OLTPOLAP
用户操作人员,低层管理人员决策人员,高级管理人员
功能日常操作处理分析决策
DB设计面向应用面向主题
数据当前的,最新的细节的,二维的分立的历史的,聚集的,多维的,集成的,统一的
存取读写数十条记录读上百万条记录
工作单位简单的事务复杂的查询
用户数上千万上百个
DB大小100MB-GB100GB-TB

OLAP有三种实现方式:关系联机分析处理(ROLAP),多维联机分析处理(MOLAP),前端展示联机分析处理

ETL是数据仓库系统开发中至关重要的一个过程,它涉及到对源数据的抽取、整合及各种转换,并最终形成面向用户的分析过程。由于数据仓库系统的数据源来自于多个分散的业务系统,对不同业务系统的数据整合及清洗转换过程是一个复杂的过程,ETL过程决定了数据仓库系统获取数据的准确性,另外由于ETL包括数据抽取、数据清洗、数据转换及数据加载等数据处理过程,这些处理过程分散在不同的系统平台及开发工具上,对这些作业过程的统一调度将是一个重要的问题,作业调度涉及到系统的稳定性。

数据抽取(Etract)

清洗、转换(transform)

数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位
修正之后再进行抽取。
数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算

数据装载(load)

数据装载也叫提交。后台任务的终点就是准备好数据以方便查询。这一步骤中至关重要的是将数据物理地组织
成简单、对称的框架模型,我们称之为维度模型,或者星 型模型。这种框架大大地降低了查询时间,简化了开发过
程。许多查询工具都需要维度框架,也是构建
OLAP立方体的必要的基础。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值