DAMA数据管理知识体系指南之数据仓库和商务智能管理

第9章 数据仓库和商务智能管理

9.1简介

数据仓库(Data Warehouse,DW)由两个主要部分构成:首先是一个整合的决策支持数据库,其次是用于收集、清洗、转换、存储来自于各种操作型数据源和外部数据源数据的相关软件程序。两者结合以支持历史的、分析的和商务智能(Business Intelligence,BI)的需求。

企业数据仓库(Enterprise Data Warehouse,EDW)是服务于整个组织商务智能需要的集中式数据仓库。
术语数据仓库活动(Data Warehousing,DW)用于描述为维护数据仓库中的数据而进行抽取、清洗、转换和加载等操作性的处理过程及相关控制的过程。

数据仓库活动提供技术解决方案以支持商务智能。“商务智能”是多种业务能力的集合。它包含了很多方面,具体包括:

(1)知识工作者执行查询、分析和报表的活动,用于监控和了解企业财务运营情况,支
持决策制定。
(2)查询、分析和报表相关的流程和规程。
(3)商务智能环境的代名词。
(4)商务智能软件工具的细分市场。
(5)基于企业操作型数据的战略/运营分析和报表,从而支持业务决策、风险管理、合规
管理。
(6)决策支持系统(Decision Support System,DSS)的同义词。

在这里插入图片描述
数据仓库和商务智能管理的目标包括:

①对所需的当前和历史数据提供整合后的数据存储,并按照主题域组织数据。
②为所有合适的访问形式提供可信的、高质量的数据。
③为数据获取、数据管理和数据访问提供稳定、高效、可靠的环境。
④提供易于使用的、灵活的和全面的数据访问环境。
⑤在内容和内容访问方面,与组织目标相适应,以增量方式交付。
⑥要借助其他相关的数据管理职能,如参考数据和主数据管理、数据治理、数据质量管理和元数据管理等,而不重复建设这些职能。
⑦交付数据时,关注如何支持数据治理所发起的决策、政策、流程、定义以及标准等。
⑧定义、构建并维护所有数据存储、数据处理过程,数据基础设施和数据工具。在交易系统输出后经过整合和精细化处理的数据可以用于信息查看、分析或者满足数据请求。
⑨整合商务智能处理过程所发现的新数据到数据仓库,使其为进一步分析和商务智能所用。

9.2概念和活动

9.2.1 数据仓库活动——简要的历史回顾

数据仓库的典型特征:

(1)Inmon版:

面向主题:数据仓库中的数据既不面向功能也不面向应用,是按照公司的主要实体进行组织的;
整合:数据仓库中的存储数据具有统一性和内聚性,且覆盖多方面的内容,包括数据键结构、结构的编码和解码、数据定义、命名习惯等,并非仅仅是复制数据;
数据快照:数据仓库中的每一条数据在某个时间点是准确的,并常常在其键结构中体现时间元素,是数据记录在某一时刻的快照,在每个快照的时间点上的记录都是准确的;
相对稳定:数据仓库在正常的处理过程中并不对记录进行更新,如果确实需要更新,也是特例;
汇总和详细数据:数据仓库中的数据必须包括汇总数据和详细数据,数据汇总早期是基于成本考虑,现在主要是基于性能考虑;
历史记录:相对于各业务系统,数据仓库的特征就是包含大量的历史数据,他们处于汇总级别,数据越久,汇总级别越高;

(2)Kimball版:

交换数据副本,其结构是为查询和分析而设计;
采用维度数据模型,便于用户理解和使用,提升查询效率;(不遵守范式规则)

9.2.2 数据仓库和商务智能架构和组件

(1)Inmon的企业信息工厂CIF
在这里插入图片描述

下表列出并描述了从企业信息工厂角度看数据仓库和商务智能架构的基本组件:
在这里插入图片描述
下表给出每一个企业信息工厂组件的报表范围、目的及备注,形成上下文环境:
在这里插入图片描述
下表从业务和应用角度,在企业信息工厂的4个主要的组件之间进行比较和对照,即在应用系统(Application)、操作型数据存储(ODS)、数据仓库(DW)和数据集市(DM)之间进行比较。
在这里插入图片描述
根据右侧的数据仓库和数据集市的信息与左侧的应用之间的比较,有一些总体的规律,特别如下:

①组件用途从执行转向分析。
②终端用户通常是决策者,而不是执行者(一线人员)。
③系统更多的是即席操作,而不是固定的交易操作。
④响应时间的需求更加宽松,因为战略决策相对于一般的日常操作而言能够容忍更长的响应时间。
⑤在每一个操作/查询或其他处理会涉及更多的数据。

下表则从数据角度提供了企业信息工厂模型的4个主要组件之间的比较和对照,即在应用、操作型数据存储、数据仓库和数据集市之间进行比较。
在这里插入图片描述
在这里插入图片描述
将右侧数据仓库和数据集市的信息与左侧的应用之间从数据的角度进行比较,可发现一些总体规律,特别如下:

①数据是面向主题的而不是面向功能的。
②整合的数据不是“烟囱式”(stove-piped)或“竖井式”(or siloed)的孤立数据。
③随时间变化的数据历史不是只有当前数据。
④数据时延更高。
⑤更多的历史数据。

(2)Kimball的业务发展生命周期和数据仓库象棋游戏

业务维度生命周期的根据是如下3个原则。

关注业务——既要满足即时的业务需求,而且也要满足长期的广泛的数据整合和一致性。
原子性维度数据模型——既要使业务用户易于理解,也要兼顾查询效率。
迭代演进管理——用独立的并限定范围的单个项目来管理数据仓库的变革和优化,即使这样的项目可能会多的看不到终点。

Kimball的数据仓库象棋棋子视图:
在这里插入图片描述
Kimball的数据仓库象棋棋子视图——组件描述:
在这里插入图片描述

9.2.3 战术型、战略型和操作型商务智能

战术型商务智能是通过应用商务智能工具对同一度量进行月度或年度的比较分析业务趋势,或者分析历史数据以发现需要引起注意的趋势。使用战术型商务智能以支持短期的业务决策。

战略型商务智能是经典的商务智能应用,包括为高管提供度量指标,常常与一些正式的业务绩效管理方法结合共同帮助管理层确定目标是否达成。使用战略型商务智能以支持公司的长期目标和目的。

操作型商务智能是为业务一线提供商务智能,应用分析能力来指引经营性决策。操作型商务智能可用于管理和优化业务运营。操作型商务智能是以上这3个方法中最后一个在业界中出现的。操作型商务智能使商务智能应用和运营功能和流程相耦合,但其对响应时延要求很高(需要近乎实时的捕获数据和交付数据)。因此,必须使用更新的架构方法,比如面向服务架构(Service-Oriented Architecture,SOA),以完整地支持操作型商务智能。

9.2.4 数据仓库活动的不同类型

(1)动态数据仓库

服务于战术和战略商务智能的数据仓库,通常使用周期性的批处理任务,具备Inmon提到的相对稳定的特性。而操作型商务智能则推动了对更低时延以及高实时性的将数据整合到数据仓库的需求。由此引入了变更隔离机制和数据ETL的新方法。动态数据仓库主要是针对实时性要求较高,可以确保少量持续数据更新的业务需求得以实现。

(2)维多分析(联机分析处理)

联机分析处理OLAP主要是为多维分析查询提供高性能的解决方案。典型的联机分析输出矩阵格式。矩阵的行和列是查询结果的维度,因素和度量是矩阵单元格的取值。这种展示方式可以很有效的展示汇总数据。

(3)ROLAP、MOLAP、HOLAP、DOLAP

关系型联机分析处理ROLAP:在关系型数据库管理系统的二维表中实现多维关系以支持联系分析处理,星型连接是常用的数据设计技术
多维联机分析处理MOLAP:使用多维数据库技术来支持联机分析处理
混合联机分析处理HOLAP:ROLAP与MOLAP的简单组合
数据库联机分析处理DOLAP:通过经典关系型数据库特殊的外围功能实现一个虚拟的联机分析处理立方体

9.2.5 维度数据建模的概念和术语

数据集市是建立在维度数据模型之上,维度数据模型让终端用户对数据访问的理解更加简单易用。

维度数据模型是实体关系型数据模型的子集,具备实体、属性和关系等基本组件。实体有两种基本类型:事实(度量)、维度(上下文)。

(1)事实表

包含一个或多个事实,用来存放度量的内容,有一些度量是计算的结果,有一些是控制列的数据。因此,正确理解和使用元数据尤为重要。

事实表用来表达和解析维度间的多对多关系,访问事实表也是一般从维度表开始。

(2)维度表

代表业务中重要的对象,通常做为报表分组和报表标签的依据。维度结构通常是高度去范式化。维度详细设计的深度和质量决定了系统的分析用处,支持对事实表中数据的分析。

典型的维度表只有少量的行数和很多列数。维度表的主要内容:

①代理键和非代理键
②主键用于与数据仓库中的其他表关联
③描述性元素:编码、描述、名称、状态等
④任何层次信息,经常包括多个层次和类型的分解
⑤业务键,供业务用户确定特定的行
⑥源系统标识字段,用以追溯数据源
⑦维度表的控制列与事实表的控制列类似,但是维度表的控制列主要涉及维度的⑧历史信息如何保存,设计实现有6种不同的类型。

维度必须为每一行设置一个唯一标识符,通常通过代理键和自然键两种方式实现:

代理键:使用数字做为主键,可以是顺序号也可以是随机码。通过ETL处理将数值主键与源系统主键进行映射。
自然键:对于不希望创建额外主键的,可以使用已经有的可以区分唯一数据行的数据。对于复杂的联结查询,可能会影响效率。

(3)维度属性类型:

类型1:覆盖,保留最新值,不保留历史记录
类型2:创建新行,保留所有历史记录
类型3:创建新列,同一行中需要有多个字段保留不同的历史版本
类型4:新表,将过期的行迁移到历史表中,现有表中的行数据被更新
类型6:1+2+3

(4)维度模型

星型模型:事实表位于中间,连接多个维度表。重点在于中间的事实表通过单一的主键联接到周围的维度表。事实表具备多个维度表的键构成的复合键。
在这里插入图片描述

雪花模型是将星型模型中的平面的单表维度结构进行去范式化,并转换成相应的层次或网状结构。3种常用的雪花模型;

雪花表:将层次结构解析到层次表中。如将一个日期维度表解构为详尽的日表,和一个与日表关联的月表或年表。
划艇式表:将维度表中的属性连接到其他维度表中的行。比如把一个表中员工的雇佣日期字段连接到时间区间维度表中,以便于按照雇佣日期所在的财年对员工进行排序。
船桥式表:两种情况。其一,当两个维度之间存在多对多的关系,不可能通过事实表解析。其二,对深度不定的层次结构或不整齐的层次结构进行范式化。比如定义层次结构中的父子关系,提升遍历效率。

粒度表示事实表中一行记录所代表的的含义或描述,是一笔业务交易所对应数据的原子级别。

一致性事实表使用跨多个数据集市的标准化术语,不同业务用户可能以不同的方式使用同一术语。

一致性维度是Kimball设计方法中可供多个数据集市使用的公共或共享的维度。通过对数据元素命名及相应的取值,包含严格的子集等方式来定义一致性维度。从一致性维度获取的任何结果集中,行头部都必须完全匹配。

(5)数据仓库总线架构和总线矩阵

一致性维度的数据仓库总线架构允许多个数据集市共存,并通过接入总线实现一致性维度的共享。数据仓库总线的矩阵是以表格的形式展现数据集市/数据处理过程/主题域是否与共享的一致性维度相关。如下图所示:
在这里插入图片描述

统一的概念是Kimball最有价值的贡献之一,也成为数据仓库和商务智能管理中的重要设计文件,需要检查维度表和事实表,以及它们的源、更新逻辑、调度计划,从而确定是否可以重用。

9.3数据仓库和商务智能管理活动

9.3.1 理解商务智能信息需求

数据仓库和商务智能管理成功的关键是在整个生命周期中始终保持一致的业务重点,通过对企业价值链的观察,理解业务背景,第四部分介绍过获取价值链的方法。对于数据仓库和商务智能来说,与其他业务不一样的是从更广泛的业务背景环境中理解目标业务领域。

在理解商务智能信息需求工作中,有几项工作是非常重要的:

①选择适当的访谈对象,识别业务领域,并明确范围。通过对业务背景的理解和访谈对象反馈信息的分析,来识别具体问题,获取关键绩效指标度量和计算公式。
②收集实际业务的词汇和术语,并给予准确的定义。这也涉及到元数据管理职能。
③数据剖析和ETL活动是商务智能需求分析的主要工作。这些工作与数据质量管理密不可分。
④在这个过程重要特别注意,源系统和数据录入功能中质量低下的数据会带来负面影响。这需要数据治理职能的参与。

最佳实践:

①为商务智能需求定制执行概要;
②执行概要包括:业务环境总览、问题样例列表、对已有数据的质量、清洗、整合等不同层次活动的评注,对相关的组织和业务职能的描述。也可能包括一张用于展示查询和报表途径的方案草图;
③会同业务部门共同审阅执行概要,确定数据仓库和商务智能职能项目在项目集中的优先级;

9.3.2 定义并维护数据仓库和商务智能架构

数据仓库和商务智能的架构设计遵循数据架构设计原则,包括数据模型、数据技术架构、数据整合架构等内容。在本章内容中也介绍了Inmon和Kimball的架构和组件。这部分是针对以上内容进行一些补充,在实践中还需要考虑哪些因素。

关键角色:

技术架构师
数据架构师
ETL架构师
元数据专家
商务智能应用架构师

评估和整合适合的业务流程、架构以及技术标准所需的组件。从技术需求角度而言,需要关注效率、可用性和及时性等方面的要求,这也是选择所需组件的依据。

数据仓库和商务智能是针对数据流向的设计,数据从哪里来(获取),到哪里去(展现),需要考虑何时何地,因何而去,如何去等问题,这也是所有活动组织起来的框架。数据仓库需要关注包含哪些数据,数据的详细程度如何,如何设计数据回溯等内容的设计机制。使之从架构上与公司的业务需求和发展战略互为整合。同时,要关注数据重用、共享和扩展的规划。

为了确保数据仓库和商务智能架构设计工作的成功,还需要考虑一些相关支持活动:

①数据质量反馈环:把变更整合到业务系统的难度
②端到端元数据:整个架构的含义和设计中能否实现透明性和可用性要求,支持完整的端到端元数据流,业务人员很清楚呈现的数据中,数据元素和度量是什么含义
③端到端可校验数据的血缘关系:通过证据保管链随时了解记录的关系和历史记录

9.3.3 实施数据仓库和数据集市

数据仓库的目的是整合来自于多个数据源的数据,整合后的数据为商务智能服务。数据使用者一般是通过数据集市或其他系统进行操作。数据仓库的设计一般是一个符合范式要求的关系型数据库。

数据集市为分析工作提供数据,需要提供简单、易于理解、性能良好的数据访问方法。数据集市首选的设计方法是维度建模(去范式化技术),用于满足专门的业务分析需求。数据集市通过聚合和汇总的信息以支持更迅速的分析。

可以将第五章中提到的数据设计和数据库设计方法应用与数据仓库和数据集市的设计,通过逐步反溯到所需的整合数据,最终回到数据源的设计上。

9.3.4 实施商务智能的工具和用户界面

选择适合的商务智能工具和用户界面就是为正确的用户群选择合适的工具。不同使用角色对工具和用户界面,以及数据使用深入程度均不相同。要根据用户需求确定使用专业性还是通用性的工具。

常用的商务智能工具有以下几类:

查询和报表工具
联机事务分析OLAP工具
分析应用
实施管理仪表盘和记分卡
绩效管理工具
预测分析和数据挖掘工具
高级可视化和探索工具

9.3.5 处理商务智能所需数据

处理商务智能所需的数据需要一系列的活动:

(1)暂存区

暂存区是进行原始数据源和中心数据存储库之间的数据存储,包括对数据必需的清洗、转换、整合和关联。一般会在暂存区存放不进行任何转换的初始数据,通过变更机制降低数据的传输量,并根据业务优先级筛选数据,以逐步迭代、渐进的方式进行数据的一致化、范式化。这些可以通过数据整合与转换来实现,在暂存区一般只进行简单的复制操作。

(2)映射源和目标

源到目标的映射是用于对所有需要的实体和数据元素定义详细的数据类型及转换规则。数据仓库和商务智能在源到目标的映射过程中增加了一些额外处理:为每个可用的数据元素提供完整的血缘关系。

这个过程中比较复杂的情况是为数据元素在多个数据源中确定正确的链接。可能涉及到具有相同数据的表和字段,却没有相同的名字和结构。所以,组织数据仓库的管理中,统一的结构、黄金数据源、统一的参考数据和主数据的记录系统起着非常重要的作用。

(3)数据清洗和转换(数据获取)

数据清洗与转换是对不同来源数据的纠正和转换,为不同数据源的整合提供服务。这需要数据治理职能的深入参与。

9.3.6 监控并调整数据仓库处理过程

数据仓库和商务智能监控的目的是达成数据的透明性和可见性。需要监控整个系统的处理过程,以便发现处理过程的瓶颈和处理过程的依赖关系,并将异常情况以明确的方式发送给相关人员。

数据仓库的管理也涉及到归档。通常用户认为数据仓库是对其他应用系统数据的归档活动,其实对于数据仓库本身也应该进行归档操作。应当根据情况及时调整数据仓库中的数据。

9.3.7 监控并调整商务智能活动和性能

最佳做法是定义和显示一套面向客户的满意度调查。比如平均查询响应时间、每日/周/月的访问用户数量等。除了显示来自系统的统计度量外,定期的收集数据仓库和商务智能的用户反馈也非常重要。可以通过对使用情况的统计数据和使用模式进行定期回顾,对数据、查询、报表活动的频率和资源占用情况进行统计来优化性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Listen·Rain

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值