DAMA数据管理知识体系
前言
该章节主要是针对DAMA数据管理知识体系的学习笔记中数据仓库和商务智能,思维导图如下(考题10分),这一章关于数据仓库的解释比较少,建议还是多看看数据仓库相关的书籍学习下。
文章目录
数据仓库和商务智能
1. 定义
- 通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者
2. 业务驱动因素
- 运营支持职能
- 合规需求
- 商务智能活动
3. 目标和原则
3.1 目标
- 支持商务智能活动
- 赋能商业分析和高效决策
- 基于数据洞察寻找创新方法
3.2 原则
- 聚焦业务目标
- 以终为始
- 全局性的思考和设计,局部性的行动和建设
- 总结并持续优化,而不是一开始就这样做
- 提升透明度和自助服务
- 与数据仓库一起建立元数据
- 协同
- 不要千篇一律
4. 基本概念
4.1 数据仓库
- 数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。
4.2 数据仓库建设的方法
4.2.1 企业信息工厂(Bill Inmon)
- 数据仓库和业务系统的区别
- 面向主题的
- 整合的
- 随时间变化的
- 稳定的
- 聚合数据和明细数据
- 历史的
注:随时间变化为历史数据不会变,新的数据会不断加载进入
- 关系型为主
- 数据仓库和数据集市的数据与应用程序中的数据不同:
- 数据的组织形式是按主题域而不是按功能需要。
- 数据是整合的数据,而不是“孤立”的烟囱数据。
- 数据是随时间变化的系列数据,而非仅当前时间的值。
- 数据在数据仓库中的延迟比在应用程序中高。
- 数据仓库中提供的历史数据比应用程序中提供的历史数据多。
4.2.2 多维数据仓库( Kimball)
- 维度型为主
- 多维模型通常称为星型模型,由事实表(包含有关业务流程的定量 数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性, 为数据消费者解答关于事实表的问题,如这个季度产品X卖了多少)组 成
4.3 相同的核心理念
- 数据仓库存储的数据来自其他系统
- 存储行为包括以提升数据价值的方式整合数据
- 数据仓库便于数据被访问和分析使用
- 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
- 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
5. 数据仓库架构组件
- 源系统
- 数据集成
- 数据存储区域
- 暂存区
- 参考数据和主数据一致性维度
- 中央数据仓库
- 操作型数据存储(ODS)
- 数据集市
- 数据立方体(Cubes)
6. 加载处理的方式
-
历史数据
-
批量变更数据捕获
- 时间戳增量加载
- 日志表增量加载
- 数据库交易日志
- 消息增量
- 全量加载
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dXHcD2S1-1676293772735)(image/image-20230213205343739.png)]
-
准实时和实时数据加载
7. 活动
7.1 理解需求
7.2 定义和维护数据仓库/商务智能架构
7.3 开发数据仓库和数据集市
- 数据仓库/商务智能建设项目有三条并存的构建轨迹
- 数据
- 技术
- 商业智能工具
7.4 加载数据仓库
7.5 实施商务智能产品组合
-
根据需要给用户分组
在确定目标用户组时,存在一系列的商务智能需求。首先,了解用 户组;然后,将工具与公司中的用户组进行匹配。
-
将工具与用户要求相匹配
7.6 维护数据产品
- 发布管理
- 管理数据产品开发生命周期
- 监控和调优加载过程
- 监控和调优商务智能活动和性能
8. 数据和数据模型的血缘关系(用途)
- 调查数据问题的根本原因
- 对系统变更或数据问题进行影响分析
- 根据数据来源确定数据的可靠性
9. 商务智能工具类型
-
运营报表
运营报表指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。
-
业务绩效管理(BPM)
绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。
-
描述性的自助分析(运营分析应用)
-
OLAP:在线分析处理(OLAP)是一种为多维分析查询提供快速性能的方法。
-
OLAP类型:关系型ROLAP、多维矩阵型MOLAP或混合型HOLAP
-
常见的OLAP操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视
1) 切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。 2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。 3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括 (向上)到最详细(向下)。 4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。 5)透视(Pivot)。透视图会更改报表或页面的展示维度。
-
10.度量指标
-
使用指标
数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并 发用户数。这些度量指标表示组织内有多少人正在使用数据仓库
-
主题域覆盖率
主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角 度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共 享的
-
响应时间和性能指标
大多数查询工具会测量响应时间。通过工具检索响应或性能指标。 此数据指标代表用户的数量和类型。
11.例题
- 实施商务智能组合是为了在业务部门内部或业务部门之间为正确的用户社区选定合适的前段工具。如下哪项工作属于这些内容之一?(B)
A. 根据安全需求给用户分组
B. 根据业务需求给用户分组
C. 将工具与用户要求相匹配
D. IT 的选项必须为业务服务 - 如下哪一项不是数据仓库建设应遵循的指导原则?(B)注意:这里跟书里相反了,书里是以终为始
A. 聚焦业务目标
B. 以始为终
C. 全局性的思考和设计
D. 总结并持续优 - Inmon 针对数据仓库的组成提出了自己的观点。如下哪一项是关于他的这些观点不正确的描述?©
A. 数据仓库是面向主题的
B. 数据仓库中的数据是整合的
C. 数据仓库中的数据是不变化的
D. 数据仓库是包含汇总和明细的