干货分享:CDGA重要考点总结
- 一、证书&备考简介
- 二、特别说明
- 三、11个核心知识领域
- 四、6个附加知识领域
- 五、纸质证书展示
一、证书&备考简介
- 适用人群:从事数据治理领域工作的职场人、希望从事大数据领域工作的学生党
- 考试费:1000元(推广期)
- 教材:DAMA数据管理知识体系指南(第2版)
- 题库&视频:25.9元,百度网盘分享(请私信留言)
二、特别说明
- 若时间紧张,建议直接放弃每一章的活动部分,大概损失5分
- CDGA考题不会脱离教材,建议多看书
- 若个人实战经验与书不同,建议以书为准,书本更偏向于国外现状。
三、11个核心知识领域
第3章 数据治理(10分)–>管理的管理,监督职能
- 数据治理不是一次性的行为,是一个持续性的项目集(或过程)。
- 数据治理要与IT治理区分开。由于数字化转型的重要性,需要单独剥离出数据治理,由不同团队做(CDO团队-数据治理,CIO团队-IT治理)
- 实施数据治理需要有变革的承诺(下定决心愿意变革),因为过程中会涉及到许多要求,如组织架构的调整、新规章制度的建立等。
- 数据管理专员:属于业务角色,而非IT角色。
- 业务术语表:通常由数据管理专员整理。术语表是在组织内部共享词汇的方法,不然容易造成语言gap,你讲你的我讲我的,互相难以听懂,导致产生很多非必要的沟通成本以及沟通风险。
考点1:业务驱动因素 P45
最常见的是法规遵从性/合规性(确保数据管理工作有序进行),但大多聚焦于:减少风险或改进流程。
考点2:数据治理的目标 P44
- 提升企业管理数据资产能力
- 定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任
- 监控和指导政策合规性、数据使用和管理活动
考点3:数据治理的概念 P47
数据治理确保数据被恰当地管理而不是直接管理数据,相当于将监督和执行的职责分离。
数据治理 | 数据管理 |
---|---|
占比1/11 | 占比1 |
保证数据是被管理的 | 管理数据以达到既定目标 |
总体视角 | 执行层面 |
考点4:数据治理的组织 P49
数据治理机构 | 说明 |
---|---|
数据治理指导委员会 | NULL |
数据治理委员会 | 立项,弄好后审核、发布;问题和升级处理 |
数据治理办公室 | 具体编制、起草工作 |
数据管理团队 | NULL |
本地数据治理委员会 | NULL |
考点5:数据治理的运营模式 P49
- 集中式管理模式
- 分布式管理模式
- 联邦式管理模式
考点6:数据管理专员 P50
数据管理专员代表他人利益并为组织的最佳利益来管理数据资产,即代表所有相关方的利益。
考点7:度量指标 P65
- 价值:对业务目标的贡献,风险的降低,运营效率的提高
- 有效性:目标的实现,扩展数据管理专员正在使用的相关工具,沟通的有效性,培训的有效性,采纳变革的速度
- 可持续性:制度和流程的执行情况,标准和规程的遵从情况
第4章 数据架构(10分)
考点1:定义 P69
将架构定义为“系统的基本结构,具体体现在架构构成中的组件、组件之间的相互关系以及管理其设计和演变的原则”。
考点2:数据架构师的主要职责 P72
- 利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据。
- 将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据。
- 管理复杂数据和信息,并传递至整个企业
- 确保业务和 IT 技术保持一致
- 为企业改革、转型和提高适应性提供支撑
考点3:企业架构的类型 P72
企业架构(Enterprise Architecture, EA)
- 业务架构(Business Architecture, BA):最顶层,包含关键业务流程、组织、角色等
- 数据架构(Data Architecture, DA):中间层,包含数据、业务对象、交换格式、安全和隐私等
- 应用架构(Application Architecture, AA):中间层,包含系统、服务、功能等
- 技术架构(Technology Architecture, TA):最底层,包含硬件设计、网络、服务器、操作系统等
PS:除数据架构外,都不是本书的范围
考点4:企业数据架构 P74
- 企业数据模型(如数据结构和数据规范):指概念模型和逻辑模型;物理模型不是数据架构的产物,是数据建模和设计的产物。
- 数据流设计(数据分布图、数据的价值链):是一种记录数据血缘的数据加工过程。
考点5:建立企业数据架构 P79
- 建立方式:面向质量(与传统一致),面向创新(不用面面俱到)
- 工作内容(可以串行或并行):战略,沟通与文化,组织,工作方法,结果
- 相关活动:定义范围,理解业务需求,设计,实施
- 开发方法:瀑布方式,迭代方式,敏捷方式
考点6:度量指标 P87
- 架构标准接受率
- 实施趋势
- 业务价值度量指标
第5章 数据建模和设计(10分)
考点1:六种模式 P90
- 关系模式
- 多维模式
- 面向对象模式:是一种模型驱动的工程方法
- 事实模式
- 时间序列模式
- NoSQL模式
考点2:三层模型 P90
概念模型、逻辑模型、物理模型
其中,每种模型都包含一系列组件,如:实体、关系、事实、键、属性
考点3:业务驱动因素(数据模型作用)P90
- 提供有关数据的通用词汇表
- 获取、记录组织内数据和系统的详细信息
- 在项目中作为主要的沟通交流工具
- 提供了应用定制、整合、甚至替换的起点
考点4:数据模型的组件(实体、关系、属性、域)P93
要求看到一张图,能识别出属于哪种模型。
- 实体的别名、图形表示、定义
(1)实体属于核心元数据
(2)常用的实体类别包括谁、什么、何时、何地、为什么、怎么办和度量等 - 关系的别名、图形表示、基数、元数、外键
(1)关系是实体之间的关联
(2)关系的别名根据模型不同而变化(如导航路径=维度模型)
(3)关系必须有基数
(4)一元关系,在关系网络中,一个实体可以拥有多个父实体。 - 属性的图形表示、标识符
- 域的多种定义方式
(1)数据类型
(2)数据格式
(3)列表
(4)范围
(5)基于规则
考点5:SCD解决方案 P102
即维度表的变化类型ORC:
- 覆盖(Overwrite)
- 新行(New Row)
- 新列(New Column)
考点5:非关系型数据库 P105
非关系型(NoSQL):文档(Document)、列(Column)、图(Graph)、键值(Key-Value)
NoSQL数据库:文档数据库、列数据库、图数据库、键值数据库
考点6:正向工程、逆向工程 P113
正向工程:建立概念模型、逻辑模型、物理模型
逆向工程:建立物理模型、逻辑模型、概念模型
在建模时,不强制要求顺序,不强制要求同时存在。
考点7:数据库设计中的最佳实践(PRISM设计原则) P119
- 性能和易用性(Performance and Ease of Use)
- 可重用性(Reusability)
- 完整性(Integrity)
- 安全性(Security)
- 可维护性(Maintainability)
考点8:数据模型计分卡 P122
第6章 数据存储和操作(2分)
考点1:子活动 P128
- 数据库操作支持
- 数据库技术支持
数据库管理员DBA这个角色是数据专业中最常见,也是最被广泛接纳的角色。在数据管理和数据安全方面,都发挥着主导作用。
考点2:数据库管理员DBA P130
DBA支持的环境:开发环境、测试环境、QA环境、其他特殊数据库环境
DBA的类别:生产DBA、应用程序DBA、过程和开发DBA、网络存储管理员
考点3:数据处理类型 P134
ACID和BASE正好相对立,酸和碱
ACID(酸)
在关系型数据库中 ACID 是最常见存储技术,通常用 SQL 作为接口。
- 原子性(Atomicity)。所有操作要么都完成,要么一个也不完成。因此,如果事务中的某部分失败,那么整个事务就都会失败。
- 一致性(Consistency)。事务必须时刻完全符合系统定义的规则,未完成的事务必须回退。
- 隔离性(Isolation)。每个事务都是独立的。
- 持久性(Durability)。事务一旦完成,就不可撤销。
BASE(碱)
通常在大数据环境使用,如大型互联网公司和社交媒体公司。
- 基本可用(Basically Available)。即使节点发生故障,系统仍然能保证一定级别数据的可用性。数据可能过时,但系统仍然会给出响应。
- 软状态(Soft State)。数据处于持续流动的状态,当给出响应时,数据不保证是最新的。
- 最终一致性(Eventual Consistency)。数据在所有节点、所有数据库上最终状态是一致的,但并非每时每刻在每个事务里都是一致的。
事项 | ACID | BASE |
---|---|---|
数据结构 | 模式必须存在;表结构必须存在;列数据的类型是可以确定的 | 数据结构是动态的;表结构在运行中调整;存储不同类型的数据 |
一致性 | 强一致性可用 | 强一致、最终一致或不追求一致性 |
处理焦点 | 事务;行/列 | 键值存储;宽列存储 |
历史 | 20世纪70年代末期开始(约1978年),应用存储 | 2000年,非结构化存储 |
扩展 | 依赖产品 | 在商业服务器间自动传播数据 |
来源 | 混合(商业和开源) | 开源 |
事务 | 是 | 可能 |
考点4:数据库环境 P137
生产环境
非生产环境
- 开发环境
- 测试环境:质量保证测试(QA)、集成测试、用户验收测试(UAT)、性能测试
- 数据沙盒或实验环境
第7章 数据安全(8分)
考点1:业务驱动因素 P166
- 降低风险
- 促进业务增长
- 安全性做为资产 -->可有可无
考点2:数据安全的目标 P168
- 支持适当访问,并防止对企业数据资产的不当访问
- 支持对隐私、保护和保密制度、法规的遵从
- 确保满足利益相关方对隐私和保密的要求
考点3:数据安全需求和过程 -->4A+E P171
4A:访问(Access)、审计(Audit)、验证(Authentication)和授权(Authorization);
为了有效遵守数据法规,还增加了一个E,即权限(Entitlement)。
考点4:加密方法 P172
- 哈希
- 对称加密:DES、3DES、AES、IDEA
- 非对称加密
考点5:脱敏 P173
脱敏类型
数据混淆或脱敏是解决数据使用过程中的一种安全手段。
数据脱敏分为两种类型:静态脱敏和动态脱敏。
静态脱敏按执行方式又可以分为不落地脱敏(在环境间移动需要脱敏或混淆)和落地脱敏(数据源和目标相同)。
- 静态脱敏:永久且不可逆
- 动态脱敏:不更改基础数据情况下,在最终用户或系统中改变数据的外观
脱敏方法
替换、混排、时空变异(日期往后延)、数值变异(应用一个随机因素)、…
考点6:渗透测试 P175
来自组织本身或从外部安全公司聘任的“白帽”黑客试图从外部侵入系统,发现漏洞应在应用程序正式发布前解决。
考点7:外包世界 P197
任何事情都可以外包,责任除外!!!
CRUD权限矩阵:创建Create、读取Read、更新Update、删除Delete
RACI责任矩阵:负责Responsible、批准Accountable、咨询Consulted、通知Informed
考点8:度量指标 P199
- 安全实施指标:各种百分比
- 安全意识指标:风险评估结果、反馈、复盘
- 数据保护指标:数据排名、数据年损失预期、丢失风险
- 安全事件指标:检测入侵、防止入侵
- 机密数据扩散:衡量副本数量,减少扩散
第8章 数据集成和互操作(2分)
ETL的目标是数据仓库,ELT的目标是数据湖。
考点1:抽取、转换、加载 P206
数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程。
转换的例子包括:格式变化、结构变化、语义转换、消除重复、重新排序
考点2:时延 P208
时延是指从源系统生成数据到目标系统可用该数据的时间差。
不同的数据处理方法会导致不同程度的数据延迟。延迟可以是很高(批处理)或较高(事件驱动),甚至是非常低(实时同步)。会直接决定数据后续ETL的加载方式。
考点3:编排 P213
编排是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。所有处理消息或数据报的系统,必须能够管理这些流程的执行顺序,以保持一致性和连续性。
几个ETL任务用串行还好。但如果是几千个ETL任务全部串行,绝了就,如有足够的CPU,就可以并行串行搭配使用。
考点4:度量指标 P226
- 数据可用性。请求数据的可获得性。
- 数据量和速度。
- 解决方案成本和复杂度。
示例:本来需要26小时完成的,经过编排后,成功缩减至10小时。
第9章 文件和内容管理(2分)
考点1:业务驱动因素 P229
- 法规遵从性要求
- 诉讼响应能力和电子取证请求能力
- 业务连续性要求
考点2:目标 P230
- 确保能够高速有效地采集和使用非结构化的数据和信息
- 确保结构化和非结构化数据之间的整合能力
- 遵守法律义务并达到客户预期
考点3:档案保存指导原则GARP P231
- 问责原则(Accountability)
- 完整原则(Integrity)
- 保护原则(Protection)
- 遵从原则(Compliance)
- 可用原则(Availability)
- 保留原则(Retention)
- 处置原则(Disposition)
- 透明原则(Transparency)
只有部分文件才能成为档案。
考点4:受控词表 P233
文件和内容管理是受控词表的主要使用案例。
考点5:精心管理的档案的特点 P239
- 内容。内容必须准确、完整和真实。
- 背景。关于档案的创建者、创建日期或与其他档案关系的描述性信息(元数据)应该在创建档案时收集、组织并维护。
- 及时性。档案应该在事件、行为或决定发生后立即创建。
- 永久性。一旦成为档案,则在档案的法定保存期内不能改变其内容。
- 结构。档案内容的外观和排版需要清晰,它们应被记录在正确的表格或模板上。内容应清晰易读,对术语的使用应始终保持如一。
考点6:电子取证 P240
第10章 参考数据和主数据(4分)
- 跨:跨业务领域、跨流程、跨系统、跨公司、跨境(国家间标准不同,现在都是用映射在做)等
- 主数据是通过对共享数据的标准化建设来提高数据质量。(归根到底是个质量问题,需要共享,不是标准问题,标准只是手段)
- 主数据为重中之重,并非一定要做,是可选项,当你看到数据不标准,你需要打通数据孤岛,那就必须要用主数据,别无二法。
考点1:业务驱动因素 P262
- 满足组织数据需求。
- 管理数据质量。数据的不一致、质量问题和差异均会导致决策错误或丧失机会。主数据管理通过使用统一的标识来定义对组织至关重要的实体,以降低这些风险。
- 管理数据集成的成本。在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高,这减少了因对关键实体的定义和识别方式的变化而产生的额外成本。
- 降低风险。主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。
考点2:目标 P263
- 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。(黄金数据)
- 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。(目标)
- 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
考点3:遵循的指导原则 P264
- 共享数据
- 所有权
- 质量
- 管理职责
- 控制变更。改变数据值的匹配规则,应该在有关监督下谨慎运用,而非随意用。
- 权限
考点4:主数据 P270
- 主数据是有关业务实体(雇员、客户、产品、金融结构、资产、位置等)的数据。实体中的属性,可落标准。
- 主数据对象代表那些对组织来说最重要的“事情”——那些在交易中被记录、报告、测量和分析的“事情”(Loshin,2008)
考点5:主数据管理的基本步骤(know how)P272
- 识别能提供主数据实体全面视图的候选数据源
- 为精确匹配和合并实体、实例制定规则
- 建立识别和恢复未恰当匹配或合并的数据的方法
- 建立将可信数据分发到整个企业的系统中的方法
考点6:主数据管理的工具 P284
- 数据整合工具
- 数据修复工具
- 操作型数据存储(ODS)
- 数据共享中心(DSH)
- 专门的主数据管理应用
考点6:度量指标 P287
- 数据质量和遵从性
- 数据变更活动
- 数据获取和消费
- 服务水平协议(SLA)
- 数据管理专员覆盖率
- 拥有总成本
- 数据共享量和使用情况
第11章 数据仓库和商务智能(10分)
考点1:业务驱动因素 P290
- 运营支持职能
- 合规需求
- 商务智能活动
考点2:数据仓库建设的目标 P291
- 支持商务智能活动。
- 赋能商业分析和高效决策。
- 基于数据洞察寻找创新方法。
考点3:数据仓库建设的指导原则 P291
- 聚焦业务目标。用于最优级的业务并解决它。
- 以终为始(从目标开始)。以业务优先级和最终成果驱动仓库创建。
- 全局性的思考和设计,局部性的行动和建设。让最终愿景指导体系架构,通过集中项目快速迭代构建增量交付,从而实现更直接的投资回报。
- 总结并持续优化,而不是一开始就这样做。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。
- 提升透明度和自助服务。上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向利益相关方公开集成的数据及其流程信息。
- 与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。如“这个数字为什么是X?”“这个数字怎么计算出来的?”“这个数据哪里来的?”
- 协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
- 不要千篇一律(一种尺寸并不适合所有用户)。为每种数据消费者提供正确的工具和产品。
考点4:基本概念 P292
- 数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代
组成部分:数据库+用于收集清理转存(ETL)的软件程序
建立过程:结构化-ETL-BI-报告-业务场景确定-对已发生事情的总结或呈现 - 数据湖:随技术发展出现的新概念
建立过程:结构化+非结构化-ELT-AI-预测-业务场景不一定明确 - 商务智能(Business Inteligence, BI):随着数仓的建设,应运而生
第一层含义,数据分析活动;第二层含义,技术集合。
考点5:数据仓库建设的方法 P293
两位思想领袖,比尔·因蒙(Bill Inmon) 和拉尔夫·金鲍尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模。
- Inmon在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、整合(集成)的、随时间变化(与时间相关)的、相对稳定(不可修改)的数据集合。-> 范式建模(用规范化的关系模型来存储和管理数据)
- Kimball在《数据仓库工具箱》(The DataWarehouse Toolkit)中定义:为查询和分析定制的交易数据的副本。他主张自下而上(DMDW)的方式,力推数据集市建设。->多维建模,多维数仓也称星型模型,由事实表和维度表组成。
PS:Inmon的解决方案目前更为主流。
考点6:Inmon 和 Kimball 遵循的核心理念相似 P293
- 数据仓库存储的数据来源于其他系统
- 存储行为包括以提升数据价值的方式整合数据
- 数据仓库便于数据被访问和分析使用
- 组织建设数据仓库,因为他们要让授权的利益相关方访问到可靠的集成的数据
- 数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析
考点7:数据仓库和数据集市的数据与应用程序中的数据不同 P295
- 数据的组织形式是按主题域而不是按功能需要
- 数据是整合的数据,而不是“孤立”的烟囱数据
- 数据是随时间变化的系列数据,而非仅当前时间的值
- 数据在数据仓库中的延迟比在应用程序中高
- 数据仓库中提供的历史数据比应用程序中提供的历史数据多
考点8:数据仓库架构组件 P297
有三项必须的!(出发点->道路->目的地)
说法1:源系统、数据集成、数据存储区域
说法2:数据源、ETL、数据仓库
数据存储区域:
暂存区、参考数据和主数据一致性维度、中央数据仓库(必须的)、操作性数据存储 ODS、数据集市、数据立方体Cubes
考点9:CDC 技术对比(批量变更数据捕获)P300
数仓建设的数据集成处理类型:历史数据加载、持续不断的数据更新。
方法 | 对源系统的要求 | 复杂度 | 事实表加载 | 维度表加载 | 重叠 | 删除 |
---|---|---|---|---|---|---|
时间戳增量加载 | 源系统中的变化由系统日期和时间戳标识 | 低 | 快 | 快 | 是 | 否 |
日志表增量加载 | 捕获源系统中的变化并记录在日志表 | 中 | 普通 | 普通 | 是 | 是 |
数据库交易日志 | 在交易日志记录数据库变化 | 高 | 普通 | 普通 | 否 | 是 |
消息增量 | 源系统中的变化发布在实时消息(队列) | 极高 | 慢 | 慢 | 否 | 是 |
全量加载 | 没有更改标识符,抽取全表数据并比较判断改动 | 极低 | 慢 | 普通 | 是 | 是 |
注:全量的话,带宽是个问题,不太智能
考点10:实施商务智能商品组合 P304
- 根据需要给用户分组
- 将工具与用户要求相匹配
考点11:数据血缘关系的用途 P308
- 调查数据问题的根本原因
- 对系统变更或数据问题进行影响分析
- 根据数据来源确定数据的可靠性
考点12:工具类型 P291&P308
- 数据仓库和商务智能工具
(1)元数据存储库
(2)数据集成工具
(3)分析型应用 - 智能商务工具
(1)运营报表
(2)业务绩效管理
(3)描述性的自助分析
考点13:OLAP实现方法 P311
在线交易处理OLTP的首要目的是不能宕机(交易型数据库),在线分析处理OLAP的首要目的是性能(分析型数据库)。
- 关系型联机分析处理(ROLAP)
- 多维矩阵型联机分析处理(MOLAP)
- 混合型联机分析处理(HOLAP)。它是ROLAP和MOLAP的结合。普遍认可,是为发展方向。
考点14:度量指标 P316
- 使用指标。包括注册用户数、连接用户数或并发用户数。
- 主题域覆盖率。衡量每个部门访问仓库的程度。
- 响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。
第12章 元数据管理(10分)–>数据的数据
元数据与其他数据一样,需要管理,有生命周期。
应归尽归,应收尽收(数据无重要性和先后顺序之分)(不同于数据质量)
考点1:元数据注册标准 P325
ISO/IEC 11179
考点2:指导原则 P323
- 组织承诺。确保组织对元数据管理的承诺(高级管理层的支持和资金),将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
- 战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。战略能推动需求,这些需求应在评估、购买和安装元数据管理产品之前定义。元数据战略必须与业务优先级保持一致。
- 企业视角。从企业视角确保未来的可扩展性,但是要通过迭代和增量交付来实现,以带来价值。
- 潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用元数据,同时也为业务提供知识辅助。
- 访问。确保员工了解如何访问和使用元数据。
- 质量。认识到元数据通常是通过现有流程(数据建模、SDLC、业务流程定义)生成的,所以流程所有者应对元数据的质量负责。
- 审计。制定、实施和审核元数据标准,以简化元数据的集成和使用。
- 改进。创建反馈机制,以便数据使用者可以将错误的或过时的元数据反馈给元数据管理团队。
考点3:元数据类型 P323
业务元数据(涉及定义描述)、技术元数据(涉及物理)、操作元数据(涉及日志)
考点4:元数据来源(14+N)P327
应用程序中的元数据存储库、业务术语表、商务智能工具、配置管理工具、数据字典、数据集成工具、数据库管理和系统目录、数据映射管理工具、数据质量工具、数据目录、事件消息工具、建模工具和存储库、参考数据库、服务注册、其他元数据存储。
考点5:元数据需求和综合解决方案 P334
- 更新频次:元数据属性和属性集更新的频率
- 同步信息:数据源头变化后的更新时间
- 历史信息:是否需要保留历史版本
- 访问权限:通过特点用户界面,谁可以访问元数据,如何访问
- More…
考点6:元模型 P335
- 定义:创建一个元数据存储库的数据模型,也叫元模型。(作用:存储元数据)
- 元模型的构成顺序:属性->实体->数据模型->存储库->应用程序
考点7:查询报告分析元数据的方法 P338
- 数据血缘:从下到上
- 影响分析:从上到下
考点8:度量指标 P343
- 元数据存储库的完整性:把事做完先
- 元数据管理成熟度:事做完后续维护
- 专职人员配备
- 元数据使用情况
- 业务术语活动
- 主数据服务数据遵从性
- 元数据文档质量
- 元数据存储库可用性
第13章 数据质量(10分)
数据质量重点集中在对组织及其客户最重要的数据上,即关键数据。(不同于元数据)
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。
考点1:业务驱动因素 P348
- 提高组织数据价值和数据利用的机会。
- 降低低质量数据导致的风险和成本。
- 提高组织效率和生产力。
- 保护和提高组织的声誉。
高质量数据本身并不是目的,它只是组织获取成功的一种手段。
考点2:数据质量管理的目标 P348
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
- 定义和实施测量、监控和报告数据质量水平的过程。
考点3:数据质量管理的原则 P348
- 重要性
- 全生命周期管理
- 预防
- 根因修正。提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
- 治理
- 标准驱动
- 客观测量和透明度
- 嵌入业务流程
- 系统强制执行
- 与服务水平关联
考点4:关键数据 P349
下述内容是从企业角度,而非个人角度:
- 监管报告。执照没了,什么也做不了
- 财务报告。钱
- 商业政策。大方向
- 持续经营。
- 商业战略,尤其是差异化竞争战略。
考点5:数据质量维度 P350
- 定义:数据质量维度是数据的某个可测量的特性。
- 三位大佬:Strong-Wang 框架、Thomas Redman、Larry English
考点6:DAMA UK 数据质量的核心维度 P353
- 完备性。存储数据量与潜在数据量的百分比。
- 唯一性。在满足对象识别的基础上不应多次记录实体实例(物)。
- 及时性。数据从要求的时间点起代表现实的程度。
- 有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
- 准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
- 一致性。比较事物多种表述与定义的差异。
DAMA UK白皮书还描述了对质量有影响的其他特性,但没有将这些指标称为“指标”。
考点7:戴明环PDCA P357
数据质量改进生命周期,戴明环是一个被称为“计划Plan-执行Do-检查Check-处理/行动Act”的问题解决模型。
考点8:数据质量问题的原因 P359
常见原因:数据输入、数据处理、系统设计、自动化流程中的手工干预
根本原因:缺乏领导力导致的问题、数据输入引起的问题、数据处理功能引起的问题、系统设计引起的问题、解决问题时引起的问题
考点9:数据剖析 P362
定义:是一种用于检查数据和评估质量的数据分析形式,本身并不是解决数据质量问题的方法。如:空值、最大/最小值、最大/最小长度、单个列值的频率分布、数据类型和格式。
考点10:通过数据处理提升数据质量的方式 P363
- 数据清理
- 数据增强
- 数据解析和格式化
- 数据转换和标准化
考点11:度量指标 P383
投资回报、质量水平、数据质量趋势、数据问题管理指标、服务水平的一致性、数据质量计划示意图
考点12:识别改进方向并确定优先排序 P368
考点13:制定管理数据问题的操作过程
诊断问题、制定补救方案、解决问题
考点14:有效的数据质量指标 P378
- 可度量性
- 业务相关性
- 可接受性
- 问责/管理制度
- 可控制性
- 趋势分析
考点14:数据质量的高阶指标 P383
- 投资回报
- 质量水平
- 数据质量趋势
- 数据问题管理指标
- 服务水平的一致性
- 数据质量计划示意图
四、6个附加知识领域
第1章 数据管理(4分)
考点1:戴帽子
管理的管理是治理,数据的数据是元数据,架构的架构是框架
数据管理的核心:数据质量。确保高质量的数据。
数据管理的起点:元数据管理。
数据管理的基础:数据架构。
数据管理的直接/首要/核心目标:数据质量。
数据管理的最终目标:数据价值。
考点2:业务驱动因素 P2
数据管理的主要驱动力是使组织能够从其数据资产中获取价值。
考点3:数据是什么 P2
数据是以数字形式存储的信息,也适用于纸面上数据。(数据是以数字形式存储的,同时也是以纸面形式存储的。)
数据既是对其所代表对象的解释,也是必须被解释的对象。
附:DIKW金字塔模型
数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom),数据密度逐步增大。
- 数据:是理解事实的符号,比如数字、单位、程度描述等,在未被整理或者加以理解之前,它是无用的,有人称之为“know-nothing”(无所知)。
- 信息:是带有逻辑的数据组合,多是结构化表述;通过信息,我们可以了解数据背后的世界和关系,因此称之为“know-what”(知其然)。同时,信息是数据分析最关键的产品。
- 知识:知识是在众多数据、信息中增加了主观理解并进一步升华的数据见解,因此因人而异;和信息不同,知识是直接指导业务决策和行动的,因此能直接产生价值,被称之为“know-how”(知行合一)。
- 智慧/洞见:古人云“玄之又玄是为道”,到了这一层,就融合了决策者的深层理解和经验性的洞见,透析数据,不仅知其然,更知其所以然,此乃妙理,即“know-why”(知其所以然)。每个公司总有少数的业务领导和管理者可以通过微小的数据线索判断行业大势,见微知著,预判未来。所有的智慧和洞见背后,是更加抽象和前瞻性的数据逻辑和知识体系。
考点4:数据和信息的关系 P3
共同点:两个术语可以互换使用。都是需要被管理的。
区别:数据被称为“信息的原材料”,而信息则被称为“在上下文语境中的数据”。
示例:这是上季度的销售报告(信息),它基于数据仓库中的数据(数据)。下一季度,这些结果(数据)将用于生成季度绩效指标(信息)。
考点5:数据管理的原则(12项)–>数字化转型必须遵循的方法论 P4
- 数据是有独特属性的资产(如:数据有哪些独特属性?)
- 数据的价值是可以用经济术语来表示
- 管理数据意味着对数据的质量管理
- 管理数据需要元数据
- 数据管理需要规划
- 数据管理需驱动信息技术决策
- 数据管理是跨职能的工作
- 数据管理需要企业级视角
- 数据管理需要多角度思考
- 数据管理需要全生命周期的管理,不同类型数据有不同生命周期特征
- 数据管理需要纳入与数据相关的风险
- 有效的数据管理需要领导层承担责任
考点6:数据和其他资产的区别 P6
实物是可移动的,在同一时刻只能放置在一个地方。
数据不是有形的,数据的价值经常随着事件的推移而变化,但它是持久的不会磨损的;
数据很容易被复制和传送,但它一旦被丢失或销毁,就不容易重新产生了,在使用时不会被消耗。
考点7:数据价值如何评估 P7
主要基于成本法来核算,除了成本法之外,还有盈利法和市场法。
获取、存储数据的成本;数据丢失后更换需要的成本;数据丢失对组织的影响。
考点8:数据ROT P11
冗余的Redundant、过时的Obsolete、碎片化的Trivial
生命周期管理要求将重点放在组织的关键数据上,并将数据ROT降至最低,即提高数据质量。
考点9:数据管理的战略 -->数字化转型的指导纲领 P13
由CDO撰写和修订,由数据治理委员会支持的数据管理团队实施。
组成部分
- 令人信服的数据管理愿景
- 数据管理的商业案例总结
- 指导原则、价值观和管理观点
- 数据管理的使命和长期目标
- 数据管理成功的建议措施
- 符合 SMART 原则(具体Specific、可衡量Measurable、可操作Actionable、现实Realistic、有时间限制Time-limited)的短期(12-24个月-国外)数据管理计划目标
- 对数据管理角色和组织的描述,以及对其职责和决策权的总结。
- 数据管理程序组件和初始化任务
- 具体明确范围的优先工作计划
- 一份包含项目和行动任务的实施路线图草案
可交付成果
- 数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
- 数据管理范围声明。包括对象和时间,如部门 or 公司 or 集团?3年 or 5年?
- 数据管理实施路线图。包括特定计划、项目、任务分配和交付里程碑。
考点10:数据管理的框架
两个模型(强调业务和IT的一致性)
- 战略一致性模型:业务战略、IT 战略、组织和流程、信息系统(4个基本领域)
- 阿姆斯特丹信息模型:与战略一致性模型一样,从战略角度看待业务和 IT 的一致性(9个单元),从横轴(业务/IT战略)和纵轴(业务战略/业务运营)两个维度详细描述组件之间的关系。
三个框架
DAMA车轮图
11个知识领域:数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据、数据仓库和商务智能、元数据、数据质量 ==》基本对标一级章节
六边形图(PPT)
目标和原则:角色和职责、活动、工具、组织和文化、方法、交付成果。
记忆法:三要素PPT(Person人员、Process流程、Technology技术),人员指角色和职责、组织和文化,流程指活动和方法,技术指工具和交付成果。
==》图中六个维度,基本对标各知识领域的二级章节
语境关系图 (PCDO:计划 控制 开发 运营)
- 定义、目标 -->业务驱动因素
- 输入、活动、交付成果,供给者、参与者、消费者
- 方法、工具、度量指标(标准)–>技术驱动因素
两个进阶模型(工作角度重要,考试角度不重要)
DMBOK金字塔
DAMA数据管理框架的进化
第2章 数据处理伦理(2分)–>工作角度重要,考试角度不重要
伦理是建立在是非观念上的行为准则;伦理准则不仅要保护数据,而且要管理数据的质量。
考点1:核心概念 P28
数据处理伦理问题较为复杂,不过主要集中在几个核心概念上:
- 对人的影响
由于数据代表个人的特征,可被用于各类决策,从而影响人们的生活,因此必须保证其质量和可靠性。 - 滥用的可能
滥用数据会对人和组织造成负面影响,所以需要有伦理准则来防止数据被滥用。 - 数据的经济价值
数据存在经济价值。需要规定数据所有权,即谁可以去使用数据及如何使用数据。
考点2:定义 P29
数据处理伦理是指如何以符合道德准则及社会责任的方式去获取、存储、管理、解释、分析、应用和销毁数据。
考点3:度量指标 P29
- 培训员工人数
- 合规/不合规事件
- 企业高管参与
考点4:数据伦理的准则 P30
- 尊重他人:尊重个人尊严和自主权,不伦理地使用个人数据会直接影响人们之间的相互交往、就业机会和社会地位。
- 行善原则:两个要素:第一,不伤害;第二,将利益最大化、伤害最小化。
- 公正:待人公平和公正
- 尊重法律和公众利益
考点5:GDPR准则(欧盟)P32
- 公平、合法、透明
- 目的限制
- 数据最小化
- 准确性
- 存储限制
- 诚信和保密
- 问责制度
考点6:违背伦理进行数据处理的风险(还没到法律高度)P34
- 时机选择
- 可视化误导
- 定义不清晰或无效的比较
- 偏见
(1)预设结论的数据采集
(2)对所收集数据的使用偏见
(3)预感和搜索
(4)片面抽样方法
(5)背景和文化
第14章 大数据和数据科学(4分)
考点1:与数仓的区别 P386
数据仓库:结构化-ETL-BI-报告-业务场景确定-对已发生事情的总结或呈现
数据湖:结构化+非结构化-ELT-AI-预测-业务场景不一定明确
数据仓库/传统商务智能 | 数据科学 | 数据科学 |
---|---|---|
描述性分析 | 预测性分析 | 规范性分析 |
事后结论 | 洞察 | 预见 |
基于历史:过去发生了什么?为什么发生? | 基于预测模型:未来可能会发生什么? | 基于场景:我们该做什么才能保证事情发生? |
考点2:业务驱动因素 P387
期望抓住从多种流程生成的数据集中发现的商机。
考点3:大数据 P390
大数据 3V:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)
6V 多出来的:数据粘度大(Viscosity)、数据波动性大(Volatility)、数据准确性低(Veracity)
考点4:数据湖、数据沼泽 P392
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:
- 数据科学家可以挖掘和分析数据的环境。
- 原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
- 数据仓库明细历史数据的备用存储区域。–用的时候再导入数仓
- 信息记录的在线归档。–永久存储
- 可以通过自动化的模型识别提取流数据的环境。
数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。
考点5:机器学习 P394
- 监督学习:知道结果范围。如是增长还是下降?
- 无监督学习:不知道结果范围。如增长多少?
- 强化学习:基于目标实现。如国际象棋中击败对手
考点6:预测分析、规范分析 P395
- 预测分析是监督学习的子领域,用户尝试对数据元素进行建模,通过评估概率估算来预测未来结果。
- 规范分析比预测分析更进一步,它对将会影响结果的动作进行定义而不仅仅是根据已发生的动作预测结果。可以不断接收新数据以重新预测和重新规定。
考点7:大数据战略的评估标准 P397
- 组织试图解决什么问题,需要分析什么。
- 要使用或获取的数据源是什么。
- 提供数据的及时性和范围。
- 对其他数据结构的影响以及与其他数据结构的相关性。
- 对现有建模数据的影响。
考点8:探索数据的模型 P400
步骤:填充预测模型->训练模型->评估模型->创建数据可视化
第15章 数据管理成熟度评估(6分)
执行成熟度评估的终点是重新评估,而不是报告。重新评估可以重振或重新集中精力。
考点1:业务驱动因素(know why)P416
- 监管。监管对数据管理提出了最低成熟度水平要求。
- 数据治理。出于规划与合规性目的,数据治理需要进行成熟度评估。
- 过程改进的组织就绪。组织认识到要改进其实践过程应从评估其当前状态开始。例如,它承诺管理主数据,并需要评估其部署主数据管理流程和工具的准备情况。
- 组织变更。组织变更(如合并)会带来数据管理挑战。DMMA为应对这些挑战制订了规划。
- 新技术。技术的进步提供了管理和使用数据的新方法。组织希望了解成功采用的可能性。
- 数据管理问题。当需要解决数据质量问题或应对其他数据管理挑战时,组织希望对其当前状态进行评估,以便更好地决定如何实施变更。
考点2:交付成功 P417
等级和排名、成熟度基线、准备评估、风险评估、人员配置能力、投资和成果选择、建议、路线图、执行简报
考点3:评价等级及特点(五级/六级)P418
0 级。无能力级。
1 级。初始级/临时级。成功取决于个人能力。
2 级。可重复级。制定了最初级的流程规则。
3 级。已定义级。已建立了标准并使用。
4 级。已管理级。能力可以被量化和控制。
5 级。优化级。能力提升的目标是可量化的。
建议记清楚2、4级。同时特殊记忆3级:1)数据被视为组织的推动者; 2)具有扩展能力的流程和工具,减少手工处理过程; 3)流程结果(包括数据质量)更具可预测性
等级 | 描述 |
---|---|
0级:无能力级 | 很少有组织处在0级 |
1级:初始/临时级 | 很少或没有治理;有限的工具集;单个竖井/系统内定义角色(孤岛);控件(如果有的话)的应用完全不一致;未解决的数据质量问题 |
2级:可重复级 | 治理开始出现;引入一致的工具集;定义了一些角色和过程;越来越意识到数据质量问题的影响 |
3级:已定义级 | 数据被视为组织的推动者;具有扩展能力的流程和工具(减少手工处理过程);流程结果(包括数据质量)更具可预测性 |
4级:已管理级 | 集中规划和管理;管理数据相关风险;数据管理性能指标;数据质量改进能够量化测量 |
5级:优化级 | 高度可预测的流程;降低风险;充分理解衡量数据质量和过程质量的指标含义 |
考点4:现有 DMMA 框架 P420
- CMMI 数据管理成熟度模型(DMM)
- EDM 委员会 DCAM
- IBM 数据治理委员会成熟度模型
- 斯坦福数据治理成熟度模型
- Gartner 企业信息管理成熟度模型
- DCMM中国(书中无)
考点5:规划评估活动 P422
定义目标、选择框架、定义组织范围、定义交互方法、计划沟通
报告三部分:评分、差距分析、建议
第16章 数据管理组织与角色期望(4分)
考点1:运营模式 P434
- 分散运营模式
优点:组织结构相对扁平,相对容易实施或改进。
缺点:实施通常比发号号令更困难。一般不太正式,难以长期性维持。 - 网络运营模式:通过RACI责任矩阵(谁负责Responsible、谁批准Accountable、咨询谁Consulted、通知谁Informed)实现
- 集中运营模式
- 混合运营模式:包含分散模式和集中模式的优点
- 联邦运营模式:为混合运营模式的一种变体,在大型全球企业中通常是必需的
考点2:关键成功因素 P439
无论数据管理组织的架构如何,有10个因素始终被证明对其数字化转型的成功发挥着关键作用:
- 高管层的支持
- 明确的愿景
- 主动的变更管理
- 领导者之间的共识
- 持续沟通
- 利益相关方的参与
- 指导和培训
- 采用度量策略
- 坚持指导原则
- 演进而非革命:有助于最大限度地减少重大变化或大规模高风险项目
考点3:首席数据官CDO P444
虽然大多数公司在某种程度上已认识到数据是有价值的公司资产,但只有少数公司指定了首席数据官(CDO)来帮助弥合技术和业务之间的差距,并在高层建立企业级的高级数据管理战略。然而,CDO这一角色正在兴起。常见任务如下:
- 建立组织数据战略。
- 使以数据为中心的需求与可用的IT和业务资源保持一致。
- 建立数据治理标准、政策和程序。
- 为业务提供建议(以及可能的服务)以实现数据能动性,如业务分析、大数据、数据质量和数据技术。
- 向企业内外部利益相关方宣传良好的信息管理原则的重要性。
- 监督数据在业务分析和商务智能中的使用情况。
Dataversity的研究结果显示,不同行业的关注点存在差异。
考点4:个人角色(数据管理角色)P447
数据管理角色分为组织角色和个人角色。
个人角色可以从业务或IT角度分别定义。一些混合角色,则需要同时掌握系统和业务流程两方面的知识。
- 执行官角色
- 业务角色:如数据管理专员
- IT角色:如架构师、开发人员、数据库管理员等
- 混合角色:含数据质量、元数据、商务智能BI字样的
第17章 数据管理和组织变革管理(2分)
考点1:变革转型阶段 P454
变革过渡阶段 | 描述 |
---|---|
结束阶段 | 意识到:有些事情需要放手 or 已经失去了一些事情 |
相持阶段 | 旧的已去新的没来;事情混乱无序;一切都在变,但感觉没人知道该做什么 |
新的开始阶段 | 新的方法让人感觉舒服、正确,且是唯一的方法 |
考点2:科特的变革管理八大误区 P455
1)过于自满
2)未能建立足够强大的指导联盟
3)低估愿景的力量
4)10倍、100倍或1000倍地放大愿景
5)允许阻挡愿景的障碍存在
6)未能创造短期收益
7)过早宣布胜利
8)忽略将变革融入企业文化
还有一些常见因素:
1)内向型文化。
2)瘫痪的官僚机构。
3)狭隘性政治。
4)信任度低。
5)缺乏团队合作。
6)狂妄自大。
7)欠缺领导力或者领导力失败。
8)对未知的恐惧。
考点3:科特的重大变革八步法 P460
迎接新机制的阶段:将变更成果融入企业文化
考点4:有效指导联盟的关键特征 P464
- 职位权力。是否有足够多的关键人物,特别是主要管理者,这样那些被排除在外的人就不会轻易阻碍进展。
- 专家意见。相关观点是否有充分的代表性,以便做出有见识的和明智的决定。
- 可信性。团队中是否有足够多的人在组织中声誉良好,从而使团队受到重视
- 领导力。团队中是否有足够可靠的领导者来推动变革进程。
考点5:好的愿景的重要特征 P466
- 明确性
- 动力性
- 一致性
考点6:有效愿景的关键特征 P467
- 充满想象。描绘了一幅未来的图景。
- 吸引力。有利于增加员工、客户、股东和其他利益相关方的长期利益。
- 可行性。目标现实、可实现。
- 重点突出。为决策提供明确指导。
- 灵活性。它足够普适,允许个人采取主动,并在条件或约束发生变化时做出替代计划和响应。
- 可交流性。容易在5分钟或者更短时间内分享和清晰交流。
考点7:有效传播愿景的关键要素 P469
- 保持简单。去掉行话、内部词汇和复杂句子。
- 使用比喻、类比和例子。例如,一张简单的图(甚至是一些图片)可以胜过千言万语。
- 适用不同场合。从电梯演讲到广播备忘录,从小型会议到全员简报,信息需要在各种不同的场合之间传递。
- 重复,重复,再重复。思想在被内化和理解之前必须被多次听到。
- 以身作则。重要人物行为需要与愿景保持一致。不一致行为会废掉所有其他形式的沟通。
- 解释表面上的不一致。虎头蛇尾和未解决的协调问题会破坏所有沟通的可信度。
- 给予和索取。双向沟通总是比单向沟通更有效。
考点8:采纳创新的五个阶段 P475
任何变革的采纳都遵循五步循环过程:从个人意识到创新(知悉)开始,到被说服相信创新的价值以及与他们的相关性(说服),最后达到对他们与创新的关系做出决策的程度。
阶段 | 定义 |
---|---|
知悉 | 在知悉阶段,个人首先接触到创新,但缺乏有关创新的信息。在此阶段,个人还没有被激励去寻找更多关于创新的信息。 |
说服 | 在说服阶段,个人对创新感兴趣,并积极寻求有关创新的信息。 |
决策 | 在决策阶段,个人权衡创新的利弊,并决定是否采用或拒绝。罗杰斯指出,这一阶段的个人独特性,使其成为最难获得经验证据的阶段。 |
实施 | 在实施阶段,个人采用创新并确定其有用,搜索有关创新的进一步信息。 |
确认 | 在确认阶段,个人最终决定继续使用创新,并充分挖掘其潜力。 |
五、纸质证书展示
考后三周出分数和电子证书,较高效。