DAMA数据管理知识体系指南-读书笔记11

第11章 数据仓库和商务智能

一、引言

1.1 业务驱动因素

       数据仓库建设的主要驱动力是运营支持智能、合规需求和商务智能活动

1.2 目标和原则

(1)目标

  • 支持商务智能活动
  • 赋能商业分析和高效决策
  • 基于数据洞察寻找创新方法

(2)原则

  • 聚焦业务目标。确保数据仓库用于组织最优先级的业务并解决业务问题。
  • 以终为始。让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
  • 全局性的思考和设计,局部性的行动和建设。让最终的愿景指导体系架构,通过集中项目快递迭代构建增量交付,从而实现更直接的投资回报
  • 总结并持续优化,而不是一开始就这样。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。
  • 提升透明度和自助服务。上下文信息越丰富,数据消费者越能从数据中获取更多数据价值。向利益相关方公开集成的数据及其流程信息
  • 与数据仓库一起建立元数据。数据仓库成功的关键是能准确解释数据
  • 协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动
  • 不要千篇一律。为每种数据消费者提供正确的工具和产品。

1.3 基本概念

1.3.1 商务智能

       两层含义:

  • 商务智能指一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率
  • 商务智能指支持这类数据分析活动的技术集合。决策支持工具、商务智能工具不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用。

1.3.2 数据仓库

       数据仓库有两个重要组成部分:

  • 一个集成的决策支持库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序
  • 为了支持历史的、分析类的和商务智能的需求,数据仓库建设还会包括相依赖的数据集市。

1.3.3 数据仓库建设

       数据仓库建设指数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。数据仓库建设还包括与元数据资料库交互的流程。

1.3.4 数据仓库建设的方法

       遵循的核心理念:

  • 数据仓库存储的数据来自其他系统
  • 存储行为包括以提升数据价值的方式整合数据
  • 数据仓库便于数据被访问和分析使用
  • 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
  • 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。

1.3.5 企业信息工厂(Inmon)

(1)数据仓库和业务系统区别:

  • 面向主题的。数据仓库是基于主要业务实体组织的,而不是关注功能或应用
  • 整合的。数据仓库中的数据是统一的、内聚的。
  • 随时间变化的。数据仓库存储的是某个时间段的数据
  • 稳定的。在数据仓库中,数据记录不会像在业务系统里那样频繁更新
  • 聚合数据和明细数据。数据仓库中的数据包括原子的交易明细,也包括汇总后的数据
  • 历史的。业务系统的重心是当前的数据。数据仓库还包括历史数据,通常要消耗很大的存储空间。

(2)CIF(企业信息工厂)组成包括:

  • 应用程序。应用程序处理业务流程
  • 数据暂存区。介于业务系统源数据库和目标数据仓库之间的一个数据库。暂存区是用来抽取、转换和加载的地方,对最终用户透明
  • 集成和转换。在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型
  • 操作型数据存储(ODS)。操作型数据存储是业务数据的集成数据库,数据可能直接来源于应用系统,也可能来自其他数据库。
  • 数据集市。数据集市为后续的的数据分析提供数据
  • 操作型数据集市(OpDM)。操作型数据集市是专注于运营支持的数据集市。他直接从操作型数据存储而不是从数据仓库获取数据。具有与操作型数据存储相同的特性。
  • 数据仓库。数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划。数据从应用程序系统和操作型数据存储流入数据仓库,然后流到数据集市,这种流动通常只是单向的。
  • 运营报告。运营报告从数据存储中输出
  • 参考数据、主数据和外部数据。

(3)数据仓库和数据集市的数据与应用程序中的数据不同:

  • 数据的组织形式是按主题域而不是按功能需要
  • 数据是整合的数据,而不是“孤立”的烟囱数据
  • 数据是随时间变化的系列数据,而非仅当前时间的值
  • 数据在数据仓库中的延迟避灾应用程序中高
  • 数据仓库中提供的历史数据比应用程序中提供的历史数据多。

1.3.6 多维数据仓库

       Kimball将数据仓库简单定义为“专为查询和分析而构建的事务数据的副本”。多维模型旨在方便数据使用者解释和使用数据,同时还支持更优的查询性能。多维模型通常称为星形模型,由事实表和维度表组成。Kimball数据仓库比Inmon的数据仓库的可扩展性更强,数据仓库包含数据暂存和数据展示区域的所有组件。

  • 业务源系统:企业中的操作型/交易型应用程序
  • 数据暂存区域:Kimball的暂存区域包括需要集成的流程和用于展示的转换数据,可以与企业信息工厂的集成、转换和数据仓库组件的组合进行类比。
  • 数据展示区域
  • 数据访问工具:Kimball方法侧重于最终用户的数据需求

1.3.7 数据仓库架构组件

(1)源系统

       通常包括如客户关系管理系统、财务系统和人力资源系统等业务系统,以及与特定行业相关的一些业务系统。

(2)数据集成

       数据集成包括抽取、转换和记载、数据虚拟化以及将数据转换为通用格式和位置的其他技术。

(3)数据存储区域

       数据仓库包含多个不同用途的存储区域:

  • 暂存区:暂存区是介于原始数据源和集中式数据库之间的中间数据存储区域
  • 参考数据和主数据一致性维度
  • 中央数据仓库:这一层保存所有历史的原子数据以及批处理运行后的最新实例化数据。该区域的数据结构是根据性能需求和使用模式来设计和开发的。(数据结构设计元素包括:基于性能考虑而设计的业务主键和代理主键之间的关系、创建索引和外键以支持维度表、用于检测、卫华和存储历史数据的变更数据捕获技术)
  • 操作型数据存储(ODS):操作型数据存储是中央持久存储的一个解决方案,它能支持较低的延迟,因此可以支持业务应用。
  • 数据集市:数据集市是一种数据存储,通常用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级自己,以便对历史信息进行集成报表、查询和分析。
  • 数据立方体:存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合性存储结构的,它们的名称与底层数据库类型有关。

1.3.8 加载处理的方式

       数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或为了处理数据问题加载有限的几次;“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。

(1)历史数据

       数据仓库的一个优势是它可以捕获所存储数据的详细历史记录。有多种不同的方法来捕获这些详细信息,想要获取历史数据信息,组织应该根据需求进行针对性的设计。

(2)批量变更数据捕获

       数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源系统可能乤不同的变更捕获技术,所以加载过程可包含各种变更监测。

(3)准实时和实时数据加载

       操作型商务智能的出现推动了更低延迟的需求,将更多实时的或准实时的数据集成到数据仓库中,新的架构方法随之出现,用于处理易变化的数据。

       批处理的替代方案解决数据仓库中对数据可用性延迟越来越短的要求,主要有以下三种替代方案:

  • 涓流式加载(源端累积):与夜间窗口批量加载不同,涓流式加载时以更频繁的节奏或者以阈值的方式进行批量加载。这种方式允许在白天就做一些批处理操作,而不必集中到晚上进行专门的批处理窗口。
  • 消息传送(总线累积):当极小的数据报(消息、事件或事务)发布到消息总线时,实时或接近实时的消息交互就非常有用。目标系统订阅消息总线,并按需增加加载数据报到仓库中。源系统和目标系统彼此独立。
  • 流失传送(目标端累积):与在源端定时或按阈值加载不同,目标端系统用缓冲区或队列方式收集数据,并按顺序处理。交互或聚合的结果可能作为数据仓库的额外反馈稍后显示出来。

二、活动

2.1 理解需求

       数据仓库/商务智能项目需要描述应该包括业务领域及其范围内流程的完整业务背景。在收集需求是,首先,要考虑业务目标和业务战略,确定业务领域并框定范围;然后,确定并对相关的业务人员进行访谈,了解他们想做些什么和这么做的原因,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类的重要信息。

2.2 定义和维护数据仓库/商务智能架构

       数据仓库/商务智能架构应描述数据从哪里来、到哪里去、什么时候去、为什么要去,以及用什么样的方式流入数据仓库。“用什么样的方式”包括涉及的软件和硬件细节,以及将所有活动组合在一起IDE组织框架。技术要求包括性能、可用性和时间性要求。

(1)确定数据仓库/商务智能技术架构

       最佳的数据仓库/商务智能架构提供一种能够以原子化的数据处理方式支撑交易级和运营级报表需求的机制,这种机制可以避免数据仓库存贮每一笔交易细节。

(2)确定数据仓库/商务智能管理流程

       通过协调和集成维护流程进行生产管理,定期向业务团队发布。为发布制定一个时间表,包括年度需求、资源计划以及标准交付计划。建立一个有效地发布流程,确保管理层理解这是一个以数据产品为中心的主动流程,而不是已安装产品的被动式问题解决方式。

2.3 开发数据仓库和数据集市

       数据仓库/商务智能建设项目有三条并存的构建轨迹:

  • 数据。支持业务分析所必须的数据
  • 技术。支持数据存储和迁移的后端系统及流程
  • 商务智能工具。数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件

(1)将源映射到目标

       源到目标的映射为从各个源系统到目标系统的实体和数据元素建立转换规则。所有映射工作最困难的部分就是确定多个系统中数据元素之间的链接有效性或等效性。需要一个可靠的分类法来讲不同的数据元素映射到数据仓库中,并且结构一致。

(2)修正和转换数据

       强化数据修正或清理活动的执行标准,并纠正和增强各个数据元素的阈值。为那些已经完成加载但又发现不正确的数据记录制定修正策略。数据转换重点关注技术系统中实现业务规则的活动,数据转换对数据集成至关重要。

2.4 加载数据仓库

       确定数据加载方法时,要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性。加载方法还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。确定加载方法时要考虑的另一个因素是围绕变更数据捕获的过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。

2.5 实施商务智能产品组合

(1)根据需要给用户分组

       首先,了解用户组;然后,将工具与公司中的用户组进行匹配。一端是与提取数据有关的IT开发人员,他们专注于高级功能;另一端是信息消费者,它们可能希望快速访问先前开发和运行的报表。

(2)将工具与用户要求相匹配

       许多厂商正在通过并购或全新开发来整合相关的商务智能工具,并提供商务智能套件。

2.6 维护数据产品

(1)发布管理

       发布管理对增量的开发过程至关重要,增加新功能,增强生产部署,并确保为已部署的资产提供定期维护。这个过程将使数据仓库保持是最新的、清洁的,并以最佳状态运行。

(2)管理数据产品开发生命周期

       数据仓库团队根据业务团队按优先级排序的延期交货工作清单对迭代与发布进行调整。每次迭代都将扩展现有增量,或加入业务团队提出的新功能。版本发布需要保持功能与业务团队的需求一致,而迭代将使功能与产品经理管理的额配置本身保持一致。

(3)监控和调优加载过程

       在需要的地方和时刻使用数据库调优技术,包括分区、备份调优和恢复策略调整。

(4)监控和调优商务智能活动和性能

       商务智能监控和调优的最佳实践是定义和显示一组面向客户满意度的指标,如平均查询响应时间,每天、每周或每月的用户数是有用的指标。定期审查使用情况的统计数据和使用方法非常重要。透明度和可见性是推动数据仓库/商务智能监控的关键原则。增加数据质量度量将提高此仪表板的价值,其中的性能不仅是速度和时间。使用热力图可视化基础架构上的工作负载、数据吞吐量以及对操作协议级别的合规性。

三、工具

       工具集的选择既要满足近期需求、非功能性规范,还需要考虑尚未产生的后续需求。提供决策标准工具集、流程实施工具和专业服务可以促进和加快此过程,不仅要评估传统的架构或购买策略,还要评估Saas厂商提供的租赁选项。

3.1 元数据存储库

       元数据存储库的关键是能将来自各种来源的元数据“黏合”在一起,并使用各种技术实现存储库的自动化和集成填充。

(1)数据字典和术语

       数据字典用业务术语来描述数据,包括使用该数据所需的其他信息。数据字典内容直接来自逻辑数据模型。在建模过程中,应要求建模人员采用严格的定义管理方法,以规划高质量的元数据。业务用户可通过提供、定义和校正主题域数据元素定义积极参与数据字典的开发。可通过协作工具进行这项工作,通过卓越中心监控活动确保创建的内容保留在逻辑模型中,确保面向业务的内容与面向技术的物理模型之间保持一致,降低下游错误和返工的风险。

(2)数据和数据模型的血缘关系

       许多数据集成工具提供血缘分析,既要考虑开发的总体代码,又要考虑物理数据模型和数据库。记录的血缘关系用途:

  • 调查数据问题的根本原因
  • 对系统变更或数据问题进行影响分析
  • 根据数据来源确定数据的可靠性

3.2 数据集成工具

       数据集成工具用于加载数据仓库。除了完成数据集成工作外,还可将来自多个数据源的复杂数据交付以作业的方式进行调度。在选择工具时,还要考虑系统管理以下功能:

  • 过程审计、控制、重启和调度
  • 在执行时有选择地提取数据元素并将其传递下有系统进行审计的能力
  • 控制哪些操作可执行或不能执行,并重新启动哪些失败或中止的进程。

3.3 商务智能工具的类型

       商务智能工具正在快速发展,正在实现从IT主导的标准化报表向业务驱动的数据探索和自主服务过渡。

  • 运营报表:是商务智能工具的应用,分析短期和长期的业务趋势。运营报表还可帮助发现趋势和模式,使用战术商务智能工具支持短期业务决策。
  • 业务绩效管理:包括对组织目标一致性的指标的正式评估,此评估通常发生在高管层面。使用战略商务智能工具支持企业的长期目标
  • 描述性的自助分析:为前台业务提供的商务智能工具,其分析功能可指导运营决策。

(1)运营报表

       运营报表指业务用户直接从交易系统、应用程序或数据仓库生成报表。数据检索和报表工具,有时呈为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。业务查询和报表,其数据源通常是数据仓库或数据集市。生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。

(2)业务绩效管理

       绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。从广义上讲,绩效管理技术通过流程帮助组织实现目标。

(3)运营分析应用

       分析型应用程序包括从中提取数据的逻辑和流程。它们为企业提供预先构建的解决方案,优化功能区域或垂直行业。在线分析处理(OLAP)是一种多为分析查询提供快速性能的方法。OLAP查询的典型输出采用矩阵格式,维度构成矩阵的行和列。从概念上讲,它展示成一个立方体的样子。构建数据立方体以提供所需的功能需求,可能需要将较大的维度拆分为单独的数据立方体,以适应存储、加载或计算要求。OLAP工具和Cube的价值是,通过将数据内容和分析师的心理模型对齐,减少混淆和错误解释。

       常见的OLAP操作包括如下:

  • 切片。切片是多为数组的子集,对应不存在子集中的维度的一个或多个成员的单个值
  • 切块。切块操作是书立方体上两个以上维度的切片,或者是两个以上的连续切片
  • 向下/向上钻取。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
  • 向上卷积。卷积涉及计算一个或多个维度的所有数据关系。
  • 透视。透视图会更改报表或页面的展示维度。

       三种经典的OLAP实现方法如下:

  • 关系型联机分析处理(ROLAP)。通过在关系数据库的二维表中使用多维技术来支持OLAP,星形架构是ROLAP环境中常用的数据库设计技术
  • 多为矩阵型分析处理(MOLAP)。通过使用专门的多维数据库技术支持OLAP。
  • 混合型联机分析处理(HOLAP)。它是ROLAP和MOLAP的结合。HOLAP实现允许部分数据以MOLAP形式存储,而另一部分数据存储在ROLAP中。

四、方法

4.1 驱动需求的原型

       对数据进行剖析有助于原型设计,并降低与非预期数据相关的风险。对源数据的状态评估,有助于对集成可行性和工作范围进行更准确的前期估算。

4.2 自助式商务智能

       自主服务是商务智能产品的基本交付方式。它通常会将用户活动放在受管门户中,根据用户的权限提供各种功能,包括消息传递、警报、查看预定的上次报表、与分析报表交互、开发即席查询报表,还有仪表盘和计分卡功能。

4.3 可查询的审计数据

       为了维系数据血缘关系,所有的结构和流程都应能创建和存储审计信息,并能够进行细粒度的跟踪和报告。

五、实施指南

5.1 就绪评估/风险评估

       数据仓库应能实现以下几点:

  • 明确数据敏感性和安全性约束
  • 选择工具
  • 保障资源安全
  • 创建抽取过程以评估和接收源数据

       在选择工具和分配资源钱,需考虑安全性约束,确保遵循相关审核和批准的数据治理过程。

5.2 版本路线图

       建议将数据仓库总线矩阵作为一个沟通和推广的工具在逐步迭代的过程中使用。使用由风险度量约束的业务确定的优先级,以确定应用于每个增量版本的严格性和开销。每个增量版本都将修改现有的功能或添加新的功能,这些功能通常与新加入的业务团队保持一致沟通。

5.3 配置管理

       配置管理与发布线路图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产。

5.4 组织与文化变革

       始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法,企业价值链中的特定业务流程提供了一个自然地面向业务的环境,该环境可用于构建分析领域。建立单独团队来进行数据产品的交付有利于工作量优化,因为团队在固定周期内有重复的任务,通过维护通道能看到工作负载峰值与具体可交付物情况,可对工作记性进一步优化调整。

六、数据仓库/商务智能治理

       数据仓库治理流程应与风险管理保持一致。将一次性有有限使用的事件视为生命周期一部分,并且可能在试验区域呃逆或在用户控制的“沙箱”区域内限制它们。实时分析流程可通过自动化流程将时间一致的聚合结果反馈到数据仓库中。策略是针对实时环境中制定的过程定义的,而治理适用于将结果放入仓库供组织使用。通过风险暴露/缓解矩阵管理的已知或已编目项目进行数据辨别。

6.1 业务接受度

       一个关键的成功因素是业务对数据的接受程度,包括可以理解的数据、具有可验证的额质量,以及具有可证明的数据血缘关系。预先还要考虑一些重要的架构子组件及其支持活动,如下:

  • 概念数据模型。组织的核心信息是什么?关键的业务概念是什么?它们是如何相互关联的?
  • 数据质量反馈循环。如何识别和修正问题数据?系统所有者如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
  • 端到端元数据。架构如何支持集成的端到端元数据流?特别是,在架构设计时是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本问题。
  • 端到端可验证数据血缘。业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?

6.2 客户/用户满意度

       对数据质量的认识将提升客户满意度,通过定期与用户代表召开会议,可促进对问题的收集和理解,并根据客户反馈采取行动。

6.3 服务水平协议

       对具体数仓环境的业务和技术期望应在服务水平协议(SLA)中制定。

6.4 报表策略

       确保BI产品组合内部和跨BI产品组合都存才报表策略。报表策略包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时地信息。报表策略必须解决如下问题:

  • 安全访问。确保只有获得授权的用户才能访问敏感数据、
  • 描述用户交付、报告、检查或查看其数据的访问机制
  • 用户社区类型和使用它的适当工具
  • 报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质
  • 通过图形化输出发挥可视化功能的潜力
  • 及时性和性能之间的权衡。

6.5 度量指标

(1)使用指标

       数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。允许多个分析指标,如审核用户、以生成的用户查询量和使用用户

(2)主题域覆盖率

       主题域覆盖百分比衡量每个部门访问仓库的程度,还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。将操作源映射到目标是另一种自然扩展,它强调和验证已经收集的血缘关系和元数据,并以提供渗透分析,确定哪些部门在使用源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

(3)响应时间和性能指标

       大多数查询工具会测量影响时间。通过工具检索影响或性能指标。此数据指标代表用户的数量和类型。数据加载过程以原始格式收集每个数据产品的加载时间。大多数工具将在日志或存储库中为提供给用户的对象保留查询和刷新纪录及提取时间等。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值