DAMA数据管理知识体系全接触-数据治理-大数据

第1章 数据管理
1.1 引言
数据管理的定义:
是为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动,并执行和监督的过程。
数据管理专业人员的定义:
是指从事数据管理各方面的工作(从数据全生命周期的技术管理工作,到确保数据的合理利用及发挥作用),并通过其工作
1.1.1 业务驱动因素
数据管理的主要驱动力:使组织能够从其数据资产中获取价值。
1.1.2 目标
1)理解并支撑企业及其利益相关方的信息需求得到满足。
2)获取、存储、保护数据和确保数据资产的完整性
3)确保数据和信息的质量
4)确保利益相关方的数据隐私和保密性
5)防止数据和信息未经授权或被不当访问、操作及使用
6)确保数据能有效地服务于企业增值的目标
1.2 基本概念
1.2.1 数据
数据既是对其所代表的对象的解释,也是必须解释的对象
语境可被视为数据的表示系统,该系统包括一个公共词汇表和一系列组件之间的关系,如果知道这样一个系统的约定,就可解释其中的数据。这些数据通常记录在一种特殊类型的数据——元数据中。
数据代表事实,是这个世界中与某个事实结合在一起的一种真实表达。
1.2.2 数据和信息
几个异议:
1)基于数据是简单存在的假设。但数据并不是简单存在,而是要被创造出来的。
2)将数据到智慧描述为一个自下而上的逐级序列,未认识到创建数据需要知识。
3)金字塔模型意味着数据和信息是分开的,但数据和信息是相互交织并相互依赖的,数据是信息的一种形式,反之也是。
数据管理核心原则:
数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。
1.2.3 数据是一种组织资产
资产是一种经济资源,能被拥有或控制、持有或产生价值。资产可以转化为货币。
1.2.4 数据管理原则
(1)数据是有独特属性的资产
数据是一种资产,但相比其他类型资产,其在管理方式的某些方面有很大差异,对比金融和实物资产,其中最明显的一个特点是数据资产在使用过程中不会产生消耗
(2)数据的价值可以用经济术语来表示
将数据视为资产意味着它有价值,虽然有技术手段可以测量数据的数量和质量,但还未形成这样做的标准来衡量其价值。
(3)管理数据意味着对数据的质量管理
首要目标是确保数据符合应用的要求,为了管理质量,组织必须确保他们了解利益相关者对质量的要求,并根据这些要求度量数据
(4)管理数据需要元数据
用于管理和如何使用的数据都称为元数据,元数据源于与数据创建、处理和使用相关的一系列流程,包括架构、建模、管理、治理、质量管理、系统开发、IT和业务运营以及分析
(5)数据管理需要规划
数据在多个地方被创建,但因为使用需要在很多存储位置间移动,需要一些协调工作来保持最终结果的一致,需要从架构和流程的角度进行规划
(6)数据管理须驱动信息技术决策
数据和数据管理与信息技术和信息技术管理紧密结合,管理数据需要一种方法,确保技术服务于而不是驱动组织的战略数据需求。
(7)数据管理是跨职能的工作
需要一系列的技能和专业知识、因此单个团队无法管理组织的所有数据。数据管理需要技术能力、非技术能力以及写作能力、
(8)数据管理需要企业级视角
虽然数据管理存在很多本地应用程序,但它必须能够有效地应用于整个企业,这就是为什么数据管理和数据治理是交织在一起的原因之一。
(9)数据管理需要多角度思考
数据是流动的,数据管理必须不断发展演进,以跟上数据创建的方式、应用的方式和消费者的变化。
(10)数据管理需要全生命周期的管理,不同类型数据有不同的生命周期特征
不同类型数据有不同的生命周期特征,因此它们有不同的管理需求、数据管理实践需要基于这些差异,保持足够的灵活性来满足不同类型数据的生命需求。
(11)数据管理需要纳入与数据相关的风险
数据除了是一种资产外,还代表着组织的风险。数据可能丢失、被盗或误用。组织必须考虑其使用数据的伦理影响,数据相关风险必须作为数据生命周期的一部分进行管理。
(12)有效的数据管理需要领导层承担责任
数据管理涉及一组复杂的过程,需要协调、协作和承诺。为了达到目标,不仅需要管理技巧,还需要来自领导层的愿景和使命。
1.2.5 数据管理的挑战
1、数据与其他资产的区别
定义数据所有权
列出组织拥有的数据量
防止数据滥用
管理与数据冗余相关的风险
定义和实施数据质量标准
2、数据价值
是一件事物的成本和从中获得利益的差额
评估数据的价值需要在组织内部持续付出的一般性成本和各类收益:
1)获取和存储数据的成本
2)如果丢失 更换数据需要的成本
3)数据丢失对组织的影响
4)风险缓解成本和与数据相关的潜在风险成本
5)改进数据的成本
6)高质量数据的优势
7)竞争对手为数据付出的费用
8)数据潜在的销售价格
9)创新性应用数据的预期收入
主要挑战是:数据的价值是上下文相关的。在一个组织中,某些类型的数据可能会随着时间的推移而具有一致的价值。
3、数据质量
确保高质量数据是数据管理的核心
低质量数据的成本主要来源于:
1)报废和返工
2)解决方法和隐藏的纠正过程
3)组织效率低下或生产力低下
4)组织冲突
5)工作满意度低
6)客户不满意
7)机会成本,包括无法创新
8)合规成本或罚款
9)声誉成本
高质量数据的作用包括:
1)改善客户体验
2)提高生产力
3)降低风险
4)快速响应商机
5)增加收入
6)洞察客户、产品、流程和商机,获得竞争优势
4、数据优化计划
决策需要系统思考因为涉及:
1)数据也许被视为独立于业务流程存在
2)业务流程与支持它们的技术之间的关系
3)系统的设计和架构及其所生成和存储的数据
4)使用数据的方式可能被用于推动组织战略
5、元数据和数据管理
元数据描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。
元数据是全面改进数据管理的起点
6、数据管理是跨职能的工作
数据管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和揭示数据的技能、通过定义和模型达成共识的语言技能、发现客户服务商机和实现目标的战略思维。
挑战在于让具备这一系列技能的人认识到各部分是如何结合在一起的。
7、建立企业的视角
管理数据需要理解一个组织中的机会和数据范围。
重要的原因之一是帮助组织跨垂直领域作出决策
8、数据管理需要多角度思考
自有和外购数据,以及外国法律法规,以及误用风险
9、数据生命周期
数据生命周期基于产品生命周期,不应该与系统开发生命周期混淆。它包括创建或获取、移动、转换和存储数据并使其得以维护和共享的过程,使用数据的过程,以及处理数据的过程。在整个生命周期中,可以清理、转换、合并、增强或聚合数据。随着数据的使用或增强,通常会生成新的数据,因此其生命周期具有内部迭代,而这些迭代没有显示在图表上。
数据管理对生命周期的关注有几个重要影响:
1)创建和使用是数据生命周期中的关键点
2)数据质量管理必须贯穿整个数据生命周期
3)元数据质量管理必须贯穿整个数据生命周期
4)数据管理还包括确保数据安全,并降低与数据相关的风险
5)数据管理工作应聚焦于关键数据
将数据ROT降至最低
10、不同种类的数据
按数据类型分类,如交易数据、参考数据、主数据、元数据,或者类别数据、源头数据、事件数据、详细交易数据;
也可以按数据内容、数据所需格式或保护级别、存储或访问的方式和位置进行分类
11、数据和风险
数据的风险在于,它可能被误解和误用
最高质量的数据带给组织最大的价值——可获得、相互关联、完整、准确、一致、及时、适用、有意义和易于理解
12、数据管理和技术
管理技术和管理数据不同。组织需要了解技术对数据的影响,以防止技术诱惑推动他们对数据的决策。相反,与业务战略一致的数据应该推动有关技术的决策
13、高效的数据管理需要领导力和承诺
《领导者的数据宣言》:组织有机增长的最佳机会在于数据
倡导首席数据官(CDO)的作用源于认识到管理数据会带来独特的挑战,成功的数据管理必须由业务驱动,而不是由IT驱动。
1.2.6 数据管理战略
战略是一组选择和决策,它们共同构成了实现高水平目标的高水平行动过程。
战略计划是为实现高水平目标而采取的高水平行动
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。数据战略需要一个支持性的数据管理战略——一个维护和改进数据质量、数据完整性、访问和安全性的规划,同时降低已知和隐含的风险。该战略还必须解决与数据管理相关的已知挑战。
数据管理战略的组成应包括:
1)令人信服的数据管理愿景
2)数据管理的商业案例总结
3)指导原则、价值观和管理观点
4)数据管理的使命和长期目标
5)数据管理成功的建议措施
6)符合SMART原则(具体、可衡量、可操作性、现实、有时间限制)的短期数据管理计划目标
7)对数据管理角色和组织的描述,以及对其职责和决策权的总结
8)数据管理程序组件和初始化任务
9)具体明确范围的优先工作计划
10)一份包含项目和行动任务的实施路线图草案
数据管理战略规划的可交付成果包括:
1)数据管理章程
包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等
2)数据管理范围声明
包括规划目的和目标,以及负责实现这些目标的角色、组织和领导
3)数据管理实施路线图
确定特定计划、项目、任务分配和交付里程碑。
1.3 数据管理框架
1.3.1 战略一致性模型
抽象了各种数据管理方法的基本驱动因素,模型的中心是数据和信息之间的关系。信息通常与业务战略和数据的操作相关,数据与信息技术和流程相关。围绕这一概念是战略选择的4个基本领域:业务战略、IT战略、组织和流程以及信息系统。
1.3.2 阿姆斯特丹信息模型
与战略一致性模型一样,从战略角度看待业务和IT的一致性。共有9个单元,它抽象出一个关注结构(包括规划和架构)和策略的中间层。此外,还要认识到信息通信的必要性
SAM(战略一致性模型)和AIM(阿姆斯特丹信息模型)框架动横轴和纵轴两个维度详细描述组件之间的关系
1.3.3 DAMA-DMBOK框架
1)DAMA车轮图
车轮图定义了数据管理知识领域,将数据治理放在中心,其他知识领域围绕车轮平衡
2)环境因素六边形图
显示了人、过程和技术之间的关系,是理解DMBOK语境关系图的关键。它将目标和原则放在中心,因为这些目标和原则为人们如何执行活动及有效地使用工具成功进行数据管理提供了指导。
3)知识领域语境关系图
描述了知识领域的细节,包括与人员、流程和技术相关的细节。他们基于产品管理的SIPOC图的概念。
每个语境关系图都以知识领域的定义和目标开始。目标驱动的活动分为四个阶段:计划(P)、控制(C)、开发(D)、运营(O)
语境关系图的组成部分包括:
1)定义
2)目标
3)活动
①计划活动P
②控制活动C
③开发活动D
④运营活动O
4)输入
5)交付成果
6)角色和职责
7)供给者
负责提供或允许访问活动输入的人员
8)消费者
直接受益于数据管理互动产生主要交付成果的消费方
9)参与者
执行、管理或批准知识领域活动的人员。
10)工具
它是实现知识领域目标的应用程序和其他技术
11)方法
它是用于在知识领域内执行活动和产生可交付成果的方法和程序。它还包括共同约定、最佳实践建议、标准和协议以及新出现的一些合适的替代方法。
12)度量指标
它是衡量或评估绩效、进度、质量、效率或其他影响的标准。这些指标用于定义每个知识领域内完成工作的可量化事实。
1.3.4 DMBOK金字塔(Aiken)
第一阶段
组织购买包含数据库功能的应用程序
第二阶段
一旦组织开始使用应用程序,他们将面临数据质量方面的挑战,但获得更高质量的数据还取决于可靠的元数据和一致的数据结构,它们说明了来自不同系统的数据是如何协同工作的。
第三阶段
管理数据质量、元数据和架构需要严格地实践数据治理,为数据管理活动提供体系性支持。
第四阶段
该组织充分利用了良好管理数据的好处,并提高了其分析能力
1.3.5 DAMA数据管理框架的进化
该框架从数据管理的指导目标开始:使组织能够像从其他资产中获取价值那样,从其数据资产中获取价值。与数据生命周期相关的数据管理功能在图的中心进行了描述。这包括:为可靠、高质量的数据进行规划和设计;建立过程和功能来使用和维护数据;在各种类型的分析活动以及这些过程中使用数据,以提高价值。
DAMA数据管理框架也被描述为另一种形式的DAMA车轮图,数据治理范围内的应用活动围绕着数据管理生命周期内的各项核心活动进行。
核心活动位于框架中心,包括元数据管理、数据质量管理和数据结构定义
生命周期管理活动可以从多个方面定义,如计划的角度(风险管理、建模、数据涉及、参考数据管理),实现的角度(数据仓库、主数据管理、数据存储和操作、数据集成和互操作、数据开发技术)
生命周期管理活动源于数据的使用:主数据使用、文件和内容管理、商务智能、数据科学、预测分析、数据可视化。
1.4 DAMA和DMBOK
(1)数据治理
通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督
(2)数据架构
定义了组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计
(3)数据建模和设计
以数据模型的精确形式,进行发现、分析、展示和沟通数据需求
(4)数据存储和操作
以数据价值最大化为目标,包括存储数据的设计、实现和支持活动以及在整个数据生命周期中,从计划到销毁的各种操作活动。
(5)数据安全
确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问
(6)数据集成和互操作
包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程
(7)文件和内容管理
用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档
(8)参考数据和主数据
包括核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时和相关联的方式在各系统间得到一致使用。
(9)数据仓库和商务智能
包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。
(10)元数据
包含规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息
(11)数据质量
包括规划和实施质量管理技术,以测量评估和提高数据在组织内的适用性。
数据处理伦理
描述数据伦理规范在促进信息透明、社会责任决策中的核心作用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人员有指导作用。
大数据和数据科学
描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程。
数据管理成熟度评估
概述了评估和改进组织数据管理能力的方法
数据管理组织和角色期望
为组建数据管理团队、实现成功的数据管理活动提供了实践指导和参考。
数据管理和组织变革管理
描述了如何计划和成功地推动企业文化变革。
第2章 数据处理伦理
2.1 引言
数据处理伦理是指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据。
伦理是建立在是非观念上的行为准则。
集中在几个核心概念上:
1)对人的影响
保证其质量和可靠性
2)滥用的可能
滥用数据会对人和组织造成负面影响,所以需要有伦理准则来防止数据被滥用。
3)数据的经济价值
需要规定数据所有权,即谁可以去使用数据及如何使用数据。
数据处理伦理的目标:
1)定义组织中数据处理的伦理规范
2)教导员工不正当处理数据会产生的企业风险
3)改变或渗透数据处理行为文化
4)监管、度量、监控和调整组织伦理准则行为
2.2 业务驱动因素
降低所负责的数据员工、客户、合作伙伴滥用的风险
2.3 基本概念
2.3.1 数据伦理准则
(1)尊重他人
尊重个人尊严和自主权
是否考虑过设计信息系统时是采用强制模式还是用户自由选择的模式?是否考虑过处理数据对精神患者或残疾人有何影响?是否考虑过应对访问和利用数据负责?
(2)行善原则
第一不伤害;第二将利益最大化、伤害最小化
处理过程的设计方式是基于零和博弈,还是双赢的理念,数据处理是否具有不必要的侵入性,是否存在风险较低的方式来满足业务需求?有问题的数据处理是否缺乏透明度,可能会隐藏对人们造成的伤害
(3)公正
待人公平和公正
不平等对待?利益不均,机器学习数据集是否使用
数据处理伦理必须遵循的四大支柱:
1)面向未来的数据处理条例、尊重隐私权和数据保护权利
2)确定个人信息处理的责任人
3)数据处理产品及服务设计及工程过程中的隐私意识
4)增加个人的自主权
2.3.2 数据隐私法背后的原则
GDPR准则(欧盟通用数据保护条例)
公平、合法、透明
个人数据的处理
目的限制
必须按照指定、明确、合法的目标去采集个人数据
数据最小化
采集的个人数据必须足够相关,并且仅限于与处理目的相关的必要信息
准确性
必须准确,有必要保持最新的数据。
存储限制
数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个人数据所需的时间。
诚信和保密
必须确保个人数据得到安全妥善的处理,包括使用适当技术和组织方法防止数据被擅自或非法处理,防止意外丢失、被破坏或摧毁等。
问责制度
控制数据的人员应负责并能够证明符合上述这些原则
PIPEDA(个人信息保护及电子文件法)
问责制度
组织有责任对其控制下个人信息负责,并设立专职人员去保证组织遵守这些准则
目的明确
组织在收集个人信息之时或之前必须明确采集的目的
授权
组织去采集、使用或披露个人信息时需征求当事人的知情和同意,但不适用的情况除外
收集、使用、披露和留存限制
个人信息必须限定于为该组织确定的目标所必需的采集。
准确性
准确、完整、最新
保障措施
采集的个人信息必须受到与信息敏感程度相匹配的安全保障措施的保护。
透明度
组织必须向个人提供有关个人信息的信息管理制度和实践相关的具体信息
个人访问
个人应被告知其个人信息的存在、使用和披露情况
合规挑战
个人应能够针对以上原则的遵从性,向负责组织或个人发起合规性质疑
美国联邦贸易委员会(FTC)发布了一份报告,重申了FTC对公平信息处理原则的重视
1)发布/告知
数据采集者在采集消费者个人信息之前,必须披露对这些信息的用途和过程。
2)选择/许可
个人信息是否采集或如何采集,以及会被用于超出采集目标之外的情况,都必须征求被采集者的意见。
3)访问/参与
消费者可以查询,并且质疑其个人数据的准确性和完整性
4)诚信/安全
数据采集者需要采取合理的步骤,以确保从消费者采集的信息是准确的,并且防止未经授权使用
5)执行/纠正
使用可靠机制对不遵守这些公平信息实践的行为实施制裁
公平信息实践其他重点包括:
1)简化消费者选择,减轻消费者负担
2)在信息生命周期中建议始终保持全面的数据管理程序
3)为消费者提供不要跟踪选项(do not Track Option)
4)要求明确肯定的同意
5)关注大型平台提供商的数据采集能力、透明度以及明确的隐私声明和制度
6)个人对数据的访问
7)提高消费者对个人隐私保护意识
8)设计时考虑保护隐私
2.3.3 在线数据的伦理环境
1)数据所有权
与社交媒体网站和数据代理相关的个人数据控制权。
2)被遗忘的权力
从网上删除个人信息,特别是调整互联网上的个人声誉
3)身份
拥有得到一个身份和一个准确的身份,或者选择匿名的权利。
4)在线言论自由
表达自己的观点,而非恃强凌弱、恐怖煽动、“挑衅”或侮辱他人。
2.3.4 违背伦理进行数据处理的风险
数据处理伦理含义的一个方式是去检查大部分人认同的违背伦理的行为。
确保数据可信度包括对数据质量维度的度量(如准确性和时效性),还有基本级别的可信度和透明度—不使用数据欺骗或误导,以及组织数据处理背后的意图、用途和来源保持透明
1、时机选择
有可能通过遗漏或根据时间将某些数据点包含在报告或活动中而撒谎
这种情况被称为市场择时,是非法的行为。
2、可视化误导
图表和图形可用于以误导性方式去呈现数据。
3、定义不清晰或无效的比较
在展示信息时,符合伦理的做法是交代清楚事情的背景及其意义。
不滥用统计数据也是非常必要的
4、偏见
偏见是指一种有倾向性的观点。在个人层面上,这个词与不合理的判断或歧视有关。
1)预设结论的数据采集
2)预感和搜索
分析师有一种预感且要满足这种预感
3)片面抽样方法
4)背景和文化
偏见源于:
有问题的数据处理类型、涉及的利益相关方、数据集如何填充、正在实现的业务需要以及流程的预期结果。
5、转换和集成数据
1)对数据来源和血缘的了解有限
2)质量差的数据
3)不可靠的元数据
4)没有数据修订历史的文档
6、数据的混淆和修订
1)数据聚合
2)数据标记
3)数据脱敏
混淆和修订是数据进行信息脱敏或信息不公开的常用方法
2.3.5 建立数据伦理文化
建立一个符合伦理的数据处理文化需要理解现有规范,定义预期行为,并将这些编入相应制度和伦理规范中,并提供相应的培训和监管以强制推行预期行为。
1、评审现有数据处理方法
改善第一步就是了解组织现在的状态
目的是为了理解这些方法在多大程度上直接而明确的与伦理和合规性驱动因素有关
2、识别原则、实践和风险因素
1)指导性原则
属于隐私
2)风险
3)实践
权限
4)控制
年度审查
3、制定合乎伦理的数据处理策略和路线图
1)价值观申明
提供了一个符合伦理准则的数据处理和决策制定的框架
2)符合伦理的数据处理原则
描述了一个组织如何处理数据所带来的挑战
3)合规框架
包括驱动组织义务的因素
4)风险评估
定义了组织内部特殊问题出现的可能性和影响
5)培训和交流
包括对伦理准则的审查
6)路线图
包括可由管理层批准的活动时间表,包括执行培训和沟通计划,识别和补救现有实践中的差距、风险缓解和监控计划。
7)审计和监测方法
监测具体活动
4、采用对社会负责的伦理风险模型
1)他们是谁
2)他们做什么
3)他们在哪儿生活
4)他们被如何对待
抽样项目的伦理风险模型
识别
所需人口统计、选择的方法
行为获取
所需内容、捕捉方法、活动 情感 地址 时间 组合数据集 法律和伦理审查
商务智能/数据科学
前景展望 实际和预测的活动
结果
允许和拒绝权利 是否进一步参与 关系消除 获利或制裁 信任与否 偏见对待
抽样他们应说明:
1)如何选择自己的群体进行研究
2)数据如何获取
3)活动分析的重点
4)如何使结果易于理解
2.3.6 数据伦理和治理
数据处理行为的数据监督属于数据治理和法律顾问范畴
数据治理必须制定相关标准和制度以提供数据处理和监督的方法。
第3章 数据治理
3.1 引言
数据治理的定义
是在管理数据资产过程中行使权力和管控,包括计划、监控和实施。
数据治理职能是指导所有其他数据管理领域的活动。数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。数据管理的整体驱动力是确保组织可以从其数据中获取价值,数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式。
数据治理项目多数包含:
1)战略
定义、交流和驱动数据战略和数据治理战略的执行
2)制度
设置与数据、元数据管理、访问、使用、安全和质量有关的制度
3)标准和质量
设置和强化数据质量、数据架构标准
4)监督
在质量、制度和数据管理的关键领域提供观察、审计和纠正措施
5)合规
确保组织可以达到数据相关的监管合规性要求
6)问题管理
数据安全、数据访问、数据质量、合规、数据所有权、制度、标准、术语或者数据治理程序等。
1)数据管理项目
增强提升数据管理实践的努力
2)数据资产估值
设置标准和流程,以一致的方式定义数据资产的业务价值
3.1.1 业务驱动因素
最常见的因素是:法规遵从性;高级分析师、数据科学家的迅猛发展;其他业务信息化管理需求
(1)减少风险
1)一般性风险管理
洞察风险数据对财务或商誉造成的影响,包括对法律和监管问题的响应。
2)数据安全
通过控制活动保护数据资产,包括可获得性、可用性、完整性、连续性、可审计和数据安全。
3)隐私
通过制度和合规性监控,控制个人信息、机密信息、个人身份信息PII
(2)改进流程
1)法规遵从性
有效和持续地响应监管要求的能力
2)数据质量提升
提升业务绩效能力
3)元数据管理
业务术语表
4)项目开发效率
管理特定数据的技术债
5)供应商管理
控制数据处理的合同
3.1.2 目标和原则
目标:
是使组织能够将数据作为资产进行管理。
数据治理程序包括:
(1)可持续发展
(2)嵌入式
(3)可度量
原则:
(1)领导力和战略
(2)业务驱动
(3)共担责任
业务数据管理专员和数据管理专业人员共担责任
(4)多层面
发生在企业层面和各地基层,但通常发生在中间各层面
(5)基于框架
由于治理活动需跨组织职能的协调,因此对数据治理项目必须建立一个运营框架来定义各自职责和工作内容。
(6)原则导向
3.1.3 基本概念
1、以数据为中心的组织
1)数据应该作为企业资产管理起来
2)应该在整个组织内鼓励数据管理的最佳实践
3)企业数据战略必须与业务战略一致
4)应不断改进数据管理流程
2、数据治理组织
立法职能(定义策略、标准和企业架构)
司法职能(问题管理和升级)
执行职能(保护和服务、管理责任)
3、数据治理运营模型类型
集中式
数据治理组织监督所有业务领域中的活动
分布式
每个业务单元中采用相同的数据治理运营模型和标准
联邦式
数据治理组织与多个业务单元协同
4、数据管理职责
描述了数据管理岗位的责任,以确保数据资产得到有效控制和使用
1)创建和管理核心元数据
它包括业务术语、有效数据值及其他关键元数据的定义和管理。
2)记录规则和标准
它包括业务规则、数据标准及数据质量规则的定义和记录。
3)管理数据质量问题
数据管理专员通常参与识别、解决与数据相关的问题,或者促进解决的过程。
4)执行数据治理运营活动
数据管理专员有责任确保数据治理制度和计划在日常工作或每一个项目中被遵循执行,并对决策发挥影响力,以支持组织总体目标的方式管理数据。
5、数据管理岗位的类型
1)首席数据管理专员
2)高级数据管理专员
3)企业数据管理专员
4)业务数据管理专员
5)数据所有者
6)技术数据管理专员
6、数据制度
包括对数据治理管理初衷的简要说明和相关基本规则,这些规则贯穿数据和信息的创造、获取、集成、安全、质量和使用的全过程
是全局性的,支持数据标准以及与数据管理和使用等关键方面的预期行为,不同组织的数据制度差异很大
7、数据资产估值
数据资产估值是一个理解和计算数据对组织的经济价值的过程。
其他度量价值的方式包括:
1)替换成本
2)市场价值
兼并或收购时作为企业资产的价值
3)发现商机
通过交易数据或售卖数据,从数据(商务智能)中发现商机获得的收入价值
4)售卖数据
将数据打包售卖获得的洞察
5)风险成本
基于潜在罚款、补救成本和诉讼费用的股价。来自法律或监管的风险包括:
①缺少必须的数据
②存在不应留存的数据
③除上述外,包括数据不正确造成客户、公司财务和声誉受损
④风险下降或者风险成本的下降
表3-2 数据资产会计准则
问责原则
组织必须确定对各种类型数据和内容负有最终责任的个人
资产原则
各种类型的数据内容都是资产,并且具有其他资产的特征。它们应向物理或者金融资产一样可以进行管理、担保和核算
审计原则
数据和内容的准确性要接受独立机构的定期审计
尽职调查原则
如果风险是已知的,必须要报告。如果可能存在风险,必须予以确认。数据风险包括与不良数据管理实践相关的风险
持续经营原则
数据及其内容对于组织的成功、持续运营和管理至关重要,即它们不是为实现目标的临时手段,也不是业务的副产品。
估值级别原则
在最合理或最容易测量的级别上将数据作为资产进行估值
责任原则
基于监管和伦理,存在着与数据内容有关的滥用或者管理不当的财务责任
质量原则
数据准确性、数据生命周期和内容会影响组织的财务状况
风险原则
存在与数据和内容相关的风险。无论是作为负债还是作为管理和降低固有风险的成本,风险必须得到正式确认
价值原则
基于满足组织目标的方式,可流通性以及对组织商誉(资产负债表)的贡献来判断,数据和内容是有价值的。信息的价值反映的是其维护和运行的成本与它对组织的贡献抵消之后的溢出。
3.2 活动
3.2.1 规划组织的数据治理
数据治理必须支持业务战略和目标,一个组织的业务战略和目标影响着组织的数据战略,以及数据治理和数据管理在组织的运营方式。
1、执行就绪评估
典型的评估包括:
1)典型的数据管理成熟度
2)变革能力
组织为适应数据治理需要正式的组织变革管理
3)协作准备
组织在管理和使用数据方面的协作能力
4)与业务保持一致
业务一致性能力评估可以检查组织如何调整数据的使用来支持满足业务战略要求
2、探索与业务保持一致
数据治理项目必须能够被找到并提供特定的价值来为组织作出贡献
3、制定组织触点
1)采购和合同
2)预算和资金
3)法规遵从性
4)SDLC/开发框架
3.2.2 制定数据治理战略
交付物包括:
1)章程
2)运营框架和职责
3)实施路线图
4)为成功运营制定计划
1、定义数据治理运营框架(需要考虑以下方面)
1)数据对组织的价值
2)业务模式
3)文化因素
4)监管影响
2、制定目标、原则和制度
可能包含多个不同方面内容:
1)由数据治理办公室(DGO)认证确认组织用到的数据
2)由数据治理办公室(DGO)批准成为业务拥有者
3)业务拥有者将在其业务领域委派数据管理专员(职责是协调数据治理活动)
4)尽可能地提供标准化报告、仪表盘或积分卡,以满足大部分业务需求
5)认证用户将被授予访问相关数据的权限,以便查询即席报表和使用非标准报告。
6)定期复评所有认证数据,以评价其准确性、完整性、一致性,可访问性、唯一性、合规性和效率等。
3、推动数据管理项目
关键是阐明数据管理提高效率和降低风险的方法。
数据治理委员会负责定义数据管理项目的商业案例,监督项目状态和进度。如果组织中存在项目管理办公室,数据治理委员会要和数据管理办公室协同工作。
还可以与大型醒目配合,主数据管理项目,如企业资源计划(ERP)、客户关系管理(CRM)和全球零件清单等
4、参与变革管理
组织变革管理(OCM)是进行组织管理体系和流程变革的管理工具。
组织需要组建团队来负责以下事项:
1)规划
2)培训
3)影响系统开发
4)制度实施
5)沟通
沟通的重点:
1)提升数据资产价值
2)监控数据治理活动的反馈并采取行动
3)实施数据管理培训
4)可以从以下5个关键领域衡量变革管理的程度:
①意识到需要改变
②希望参与并支持变革
③知道如何改变
④具备实施新技能和行为的能力
⑤保持持续变革
5)实施新的指标和关键绩效(KPI)
5、参与问题管理
问题管理是识别、量化、划分优先级和解决与数据治理相关问题的过程,包括:
1)授权
2)变更管理升级
3)合规性
4)冲突
5)一致性
6)合同
7)数据安全和身份识别
8)数据质量
开展数据治理需要在以下几个方面建立控制机制和流程:
1)识别、收集、记录和更新的问题
2)各项活动的评估和跟踪
3)记录利益相关方的观点和可选解决方案
4)确定、记录和传达问题解决方案
5)促进客观、中立的讨论,听取各方观点
6)将问题升级到更高权限级别
6、评估法规遵从性要求
1)会计准则
2)BCBS239(巴塞尔银行监管委员会)和巴塞尔II
3)CPG235
4)PCI-DSS
5)偿付能力标准II
6)隐私法
评估过程中每个组织必须确定:
1)与组织相关的法规有哪些
2)什么是合规性?实现合规性需要什么样的策略和流程?
3)什么时候需要合规?如何以及什么时候监控合规性?
4)组织能否采用行业标准来实现合规性?
5)如何证明合规性?
6)违规的风险和处罚是什么?
7)如何识别和报告不合规的情况?如何管理和纠正不合规的情况?
3.2.3 实施数据治理
高优先级的前期工作包括:
1)定义可满足高优先级目标的数据治理流程
2)建立业务术语表,记录术语和标准
3)协调企业架构师和数据架构师
4)为数据资产分配财务价值,以实现更好的决策,并提高对数据在组织成功中所起作用的理解。
1、发起数据标准和流程
标准化概念示例:
1)数据架构(Data Architecture)。它包含企业级数据模型、工具标准和系统命名规范
2)数据建模和设计(Data Modeling and Design)。它包括数据模型管理程序、数据模型的命名规范、定义标准、标准域、标准缩写等。
3)数据存储和操作(Data Storage and Operations)。它包括标准工具、数据库恢复和业务连续性标准、数据库性能、数据留存和外部数据采集
4)数据安全(Data Security)。它包括数据访问安全标准、监控和审计程序、存储安全标准和培训需求
5)数据集成(Data Integration)。它适用于数据集成和数据互操作的标准方法、工具。
6)文件和内容(Documents and Content)。它包含内容管理标准及程序,包括企业分类法的使用,支持法律查询、文档和电子邮件保留期限、电子签名和报告分发方法。
7)参考数据和主数据(Reference and Master Data)。它包括参考数据管理控制流程、数据纪录系统、建立标准及授权应用、实体解析标准。
8)数据仓库和商务智能。它包括工具标准、处理标准和流程、报告和可视化格式标准、大数据处理标准。
9)元数据(Metadata)。它指获取业务和技术元数据,包括元数据集成和使用流程。
10)数据质量(Data Quality)。它包括数据质量规则、标准测量方法、数据补救标准和流程。
11)大数据和数据科学(Big Data and Data Science)。它包含数据源识别、授权、获取、记录系统、共享和刷新。
2、制定业务术语表
具有如下目标:
1)对核心业务概念和术语有共同的理解
2)降低由于对业务概念理解不一致而导致数据误使用的风险
3)改进技术资产(包括技术命名规范)与业务组织之间的一致性
4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。
3、协调架构团队协作
数据战略和数据架构是在“做正确的事”和“正确地做事”之间协调的核心。
4、发起数据资产估值
数据和信息是具有价值或者可以创造价值的企业资产。
3.2.4 嵌入数据治理
数据治理组织的一个目标是将治理活动嵌入到数据作为资产管理相关的一系列流程中。数据治理的持续运作需要规划。运营计划包含实施和运营数据治理活动所需的事件,其中包括维持成功所需的活动、时间和技术
可持续性意味着采取行动,保证流程和资金到位,以确保可持续地执行数据治理组织框架
3.3 工具和方法
3.3.1 线上应用/网站,包含的内容
1)数据治理战略和项目章程
2)数据制度和数据标准
3)数据管理制度的角色和职责说明
4)数据治理相关新闻公告
5)指向相关数据治理社区论坛的链接
6)指向相关数据治理主题执行进展的链接
7)数据质量测试报告
8)问题识别和上报的规程
9)请求服务或获取问题的入口
10)相关在线资源的描述和链接、演示文档和培训计划
11)数据管理实施路线图
3.3.2 业务术语表
大型ERP系统
数据集成工具
元数据管理工具
3.3.3 工作流工具
3.3.4 文档管理工具
3.3.5 数据治理记分卡
跟踪数据治理活动和制度遵从性的指标集合,通过自动记分卡的形式向数据治理委员会和数据治理指导委员会报告
3.4 实施指南
3.4.1 组织和文化
3.4.2 调整与沟通
管理和沟通变更所需的工具有:
1)业务战略/数据治理战略蓝图
2)数据治理路线图(DG Road MAP)
3)数据治理的持续业务案例
4)数据治理指标(DG Metrics)
3.5 度量指标
(1)价值
1)对业务目标的贡献
2)风险的效率
3)运营效率的提高
(2)有效性
1)目标的实现
2)扩展数据管理专员正在使用的相关工具
3)沟通的有效性
4)培训的有效性
5)采纳变革的速度
(3)可持续性
1)制度和流程的执行情况(即它们是否正常工作)
2)标准和规程的遵从情况(即员工是否在必要时遵守指导和改变行为)
第4章 数据架构
4.1 引言
架构是构建一个系统的艺术和科学,以及在此过程中形成的成果——系统本身。架构是对组件要素有组织的设计,旨在优化整个结果或系统的功能、性能、可行性、成本和用户体验
1)数据架构成果。包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件
2)数据架构活动,用于形成、部署和实现数据架构的目标
3)数据架构行为,包括影响企业数据架构的不同角色之间的协作、思维方式和技能。
国际标准架构的定义:
系统的基本结构、具体体现在架构构成中的组件、组件之间的相互关系以及管理其设计和演变的原则。
数据架构的基本组成部分:
1)数据架构成果
包括不同层级的模型、定义、数据流,这些通常被称为数据架构的构件
2)数据架构活动
用于形成、部署和实现数据架构的目标
3)数据架构行为
包括影响企业数据架构的不同角色之间的协作、思维方式和技能
数据架构的构建,包括
当前状态的描述
数据需求的定义
数据整合的指引
数据管控策略中要求的数据资产管理规范
数据架构文件,包含
数据名称
数据属性
元数据定义
概念和逻辑实体
关系以及业务规则
物理数据模型也属于数据架构文件,但他是数据建模和设计的产物,而不是数据架构的产物
4.1.1 业务驱动因素
1)利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据
2)将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据
3)管理复杂数据和信息,并传递至整个企业
4)确保业务和IT技术保持一致
5)为企业改革、转型和提高适应性提供支撑
4.1.2 数据架构成果和实施
主要成果
1)数据存储和处理需求
2)设计满足企业当前和长期数据需求的结构和规划
图4-1 关系语境图
数据架构师需要定义和维护:
1)定义组织中数据的当前状态
2)提供数据和组件的标准业务词汇
3)确保数据架构和企业战略及业务架构保持一致
4)描述组织数据战略需求
5)高阶数据整合概要设计
6)整合企业数据架构蓝图
总体数据架构实施包括:
1)使用数据架构构件(主蓝图)来定义数据需求、指导数据整合、管控数据资产,确保数据项目投入与企业战略保持一致。
2)与参与改进业务或IT系统开发的利益相关方合作,学习并影响他们
3)通过数据架构及通用的数据词汇,搭建企业数据语言
4.1.3 基本概念
1、企业架构类型
企业业务架构
目的:识别企业如何为消费者和其他利益相关方创造价值
元素:业务模型、流程、功能、服务、事件、策略、词汇
依赖项:制定其他架构的需求
角色:业务架构师和分析师、业务数据管理员
企业数据架构
目的:描述数据应该如何组织和管理
元素:数据模型、数据定义、数据映射规范、数据流、结构化数据应用编程接口
依赖项:管理业务架构创建和需要的数据
角色:数据架构师、建模师、数据管理员
企业应用架构
目的:描述企业应用的结构和功能
元素:业务系统、软件包、数据库
依赖项:依据业务需求来处理指定的数据
角色:应用架构师
企业技术架构
目的:描述能使系统发挥功能和传递价值的实体技术
元素:技术平台、网络、安全、整合工具
依赖项:承载并执行应用架构
角色:基础设施架构师
2、企业架构框架
是什么
目录列,表示构建架构的实体
怎样做
流程列,表示执行的活动
在哪里
分布列,表示业务位置和技术位置
是谁
职责列,表示角色和组织
什么时间
时间列,表示间隔、事件、周期和时间表
为什么
动机列,表示目标、策略和手段
3、企业数据架构
企业数据架构的设计中包括业务数据描述,如数据的收集 存储 整合 移动和分布
1)企业数据模型
企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。
明显特征为:
1)企业主题域的概念描述
2)各主题域的实体和关系概述
3)归属于同一主题域的详细逻辑概述
4)具体到应用或项目的逻辑和物理模型
从上到下和横纵向
1)纵向
不同层级模型之间的映射
2)横向
同一个实体和关系可能出现在同一层级的多个模型中
位于一个主题域中的逻辑模型中的实体可以和其他主题域的实体相关联;也出现在产品主题域模型中
主题域的识别准则必须在整个企业模型中保持一致:
使用规范化规则,从系统组合中分离主题域,基于顶级流程(业务价值链)或者基于业务能力(企业架构)从数据治理结构和数据所有权(或组织)中形成主题领域。
2)数据流设计
数据流是一种记录数据血缘的数据加工过程,用于描述数据如何在业务流程和系统中流动。端到端的数据流包含了数据起源于哪里,在哪里存储和使用,在不同流程和系统内或之间如何转化。
数据流映射记录了数据与以下内容的联系:
1)业务流程中的应用
2)某个环境中的数据存储或数据库
3)网段(有助于安全映射)
4)业务角色(描述哪些角色有职责创建、更新和删除数据)
5)出现局部差异的位置
4.2 活动
简化数据和企业架构所面临的复杂问题,基于以下两种方式解决:
1)面向质量
专注于业务和IT开发周期对数据架构进行不断改进。
2)面向创新
专注与业务和IT转换,致力于新的期待和机会。
4.2.1 建立企业数据架构
包含以下工作,可串行或并行:
1)战略。
2)沟通与文化
3)组织
4)工作方法
5)结果
数据架构也会影响项目和系统开发的边界
1)定义项目数据需求
2)评审项目数据设计
3)确定数据溯源影响
4)数据复制控制
5)实时数据架构标准
6)指导数据技术和更新决策
1、现有数据架构规范评估
2、开发路线图
包括:高层次里程碑事件、所需资源、成本评估、业务能力工作流划分。
3、在项目中管理企业需求
项目范围完成时,架构师应该决定:
1)规范中所描述实体是否符合标准
2)在需求中,哪些实体应该被包括在整体企业数据架构中
3)规范中的实体和定义是否需要扩大或加深以满足将来的趋势
4)是否更新了数据架构或者是否向开发人员指出了哪些可以重用
企业数据架构项目相关活动包括:
1)定义范围
保证范围和接口与企业数据模型一致。
2)理解业务需求
获取数据相关的需求,如实体、资源、可用性、质量和痛点,以及评估满足这些需求的业务价值。
3)设计
形成详细的目标规范,包括:数据生命周期内的业务规则、验证结果的有效性、需要提供的时间、提升模型的扩展性和改进标准模型等。
4)实施
①什么时候购买
②什么时候重用数据
③什么时候构建
将架构嵌入到项目中采用的方式有三种:
1)瀑布式
2)迭代方式
3)敏捷方式
4.2.2 整合其他企业架构
企业数据架构问题和项目组合管理进行整合
4.3 工具
4.3.1 数据建模工具
4.3.2 资产管理软件
4.3.3 图形设计应用
4.4 方法
4.4.1 生命周期预测
1)当前的
2)部署周期的
3)策略周期的
4)退役的
5)优先的
6)限制的
7)新兴的
8)审核的
4.4.2 图标使用规范
1)清晰一致的说明
2)所有图表对象与说明相匹配
3)清晰一致的线条方向
4)一致的交叉线显示方法
5)一致的对象属性
6)线性对称
4.5 实施指南
实施企业数据架构主要包含的工作内容:
1)建立企业数据架构团队和举办问题讨论会
2)生成数据架构构件的初始版本。例如,企业范围数据流和路线图
3)在开发项目中,形成和建立数据架构工作方式
4)提高组织对数据架构工作价值的认知
4.5.1 就绪评估和风险评估
最明显的风险:
1)缺少管理层支持
2)成功与否缺乏证据
3)缺乏管理者的信任
4)管理层不正确的决策
5)文化冲击
6)缺乏有经验的项目经理
7)单一维度视角
4.5.2 组织和文化
一个组织接受并实施数据架构的能力依赖于以下几个方面:
1)对架构方法的接受度(开发架构的友好性)
2)确认数据属于组织的业务资产,而不仅仅是IT的任务
3)放弃局部数据视角,接受企业级数据视角的能力
4)将架构交付成果整合到项目实施中的能力
5)规范数据治理的接受程度
6)立足企业全局,而不仅仅局限于项目交付成果和IT解决问题的能力。
4.6 数据架构治理
4.6.1 数据架构治理活动
1)项目监督
2)管理架构设计、生命周期和工具
3)定义标准
4)创建数据相关构件
4.6.2 度量指标
(1)架构标准接受率
可以测量项目与已建立的数据架构的紧密程度及项目与企业架构参与流程的遵循度。追踪项目预期的衡量目标也有助于理解和采纳执行过程中出现的问题。
(2)实施趋势
对跟踪企业架构改善组织实施项目能力的程度,至少沿两个方向进行改善:
1)使用/重用/代替/废弃测量。决定使用新架构构件与重用、代替或废弃构件的比例
2)项目执行效率测量
测量项目的交付实践和可重用构件及指导构件的交付改进成本
(3)业务价值度量指标
1)业务敏捷性改进
解释生命周期改进或改变的好处,改进延误成本的测量方法。
2)业务质量
测量业务案例是否按期完成;基于新创建或集成的数据导致业务发生的改变,测量项目是否实际交付了这些变更
3)业务操作质量
测量改进效率的方法。实例包括准确性改进、时间减少,由于数据错误而导致的纠错费
4)业务环境改进
实例包括由于数据错误减少而改变的客户保留率和在递交报告中当局评论的减少率。
第5章 数据建模和设计
5.1 引言
数据建模是发现、分析和确定数据需求的过程,用一种称为数据模型的精确形式表示和传递这些数据需求。数据建模是数据管理的一个重要组成部分。建模过程中要求组织发现并记录数据组合的方式。在建模过程本身,设计了数据组合的方式。
5.1.1 业务驱动因素
1)提供有关数据的通用词汇表
2)获取、记录组织内数据和系统的详细信息
3)在项目中作为主要的交流沟通工具
4)提供了应用定制、整合,甚至替换的起点
5.1.2 目标和原则
目标:确认和记录不同视角对数据需求的理解,确保应用程序更符合当前和未来的业务需求,为更多数据应用或数据管理奠定一个良好的基础,例如主数据管理和数据治理项目。
确认和记录有助于:
1)格式化
2)范围定义
3)知识保留记录
5.1.3 基本概念
1、数据建模和数据模型
数据建模最常用在系统开发与系统维护的工作环境中,也称为系统开发生命周期(SDLC)。数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号试图以可视化方式展现数据需求并将其传递给数据建模人员,以获得一组特别的数据。
2、建模的数据类型
1)类别信息
用于对事物进行分类和分配事物类型的数据
2)资源信息
实施操作流程所需资源的基本数据
3)业务事件信息
在操作过程中创建的数据
4)详细交易信息
详细的交易信息通常通过销售系统生成。
3、数据建模组件
(1)实体
1)实体的别名
2)实体的图形表示
矩形代表实体
3)实体的定义
清晰
准确
完整
(2)关系
1)关系的别名
导航路径、边界、链接
2)关系的图形表示
显示为线条
3)关系的基数
在两个实体之间的关系中,基数说明了一个实体(实体实例)和其他实体参与建立关系的数量。
4)关系的元数
①一元关系
递归关系,或自我引用关系
②二元关系
涉及两个实体
③三元关系
涉及三个实体
5)外键
(3)属性
属性是一种定义、描述或度量实体某方面的性质。属性可能包含域,这将在后面展开讨论。
1)属性的图形表示
通常在实体矩形内的列表中描述
2)标识符
也称为键,是唯一标识实体实例的一个或多个属性的集合
键的结构类型
①单一建
②组合键
③复合键
键的功能类型
主键
备用键
标识关系与非标识关系
独立实体是指其主键仅包含只属于该实体的属性
非独立实体是指其主键至少包含一个来自其他实体的属性
非独立实体至少含有一个标识关系
标识关系是指父实体的主键作为外键被集成到子实体主键的一部分,正如学生和注册之间、课程和注册之间的关系。
在非标识关系中,父实体的主键仅被继承为子实体的非主外键属性
(4)域
代表某一属性可被赋予的全部可能取值
4、数据建模方法
(1)关系建模
表示方法:
信息工程(IE)
采用三叉线俗称鸭掌模型来表示基数
信息建模集成定义(IDEF1X)
巴克符号
陈氏符号
(2)维度建模
1)事实表
2)维度表
高度反范式的
维度属性以不同速率变化,3种主要的变化类型,被称为ORC
①覆盖:新值覆盖旧值
②新行:新值写在新行中,旧行被标记为非当前值
③新列:一个值的多个实例列在同一行的不同列中,而一个新值意味着将系列中的值向下一点写入,以便在前面为新值留出空间,最后一个值被丢弃。
3)雪花模型
是将星型模式中的平面、单表、维度结构规范为相应的组件层次结构或网络结构。
4)粒度
是指事实表中的单行数据的含义或者描述,这是每行都有的最详细信息。定义一个事实表中的粒度是维度建模的关键步骤之一。
5)一致性维度
基于整个组织考虑构建的,而不是基于某个特定的项目。
6)一致性事实
使用跨多个数据集市的标准化术语。
(3)UML
统一建模语言是一种图形风格的建模语言。UML根据数据库的不同有着不同种类的表示法(类模型)。UML规定了类(实体类型)和它们之间关系类型。特点有:
1)与ER图相似,但ER图中没有操作(Operation)或方法部分。
2)在ER图中,与操作最为接近概念的是存储过程。
3)属性类型(如日期、分钟)是用程序编程语言的数据类型表示的,而不是物理数据库数据类型来表示。
4)默认值可以在符号中有选择的显示
5)访问数据是通过类的公开接口。
类操作可以是:
1)公开的
2)内部可见的
3)私密的
(4)基于事实的建模
一个广泛而强大的约束系统依赖于流畅的自动语言和对具体实例的自动检查。
基于事实的建模是一种概念建模语言,通常基于Fact-Based Modeling对象的特征,以及每个对象在每个事实中所扮演的角色来描述世界。
不使用属性,通过表示对象(实体和值)之间的精确关系来减少直观或专家判断的需求。
1)对象角色建模(ORM)
使用最广
是一种模型驱动的工程方法,以典型的需求信息或查询的实例开始,这些实例在用户熟悉的外部环境中呈现,然后在概念层次上用受控的自然语言所表达的简单事实来描述这些实例。受控自然语言是受限制的无歧义的自然语言版本,因此所表达的语义很容易被人理解,也是形式化的语言。
2)完全面向通信的建模
在注释和方法上与ORM相似。
(5)基于时间的数据模型(Timed-Based)
1)数据拱顶(Data Vault)
是一组支持一个或多个业务功能领域,面向细节、基于时间且唯一链接的规范化表。数据拱顶模型是一种混合方式,综合了三范式和星型模型的优点。
有三种类型的实体:中心表、链接表和卫星表。
中心表代表业务主键,链接表定义了中心表之间的事务集成,卫星表定义了中心表主键的语境信息。
2)锚建模
锚模型适合信息的结构和内容都随时间发生变化的情况。它提供用于概念建模的图形语言,能够扩展处理临时数据。
四个基本概念:锚、属性、连接、节点。锚模拟的是实体,属性模拟了锚的特征,连接表示锚之间的关系,节点用来模拟共享的属性。
(6)非关系型数据库
基于非关系技术构建的数据库的统称。有四类NoSQL:
1)文档数据库
通常将业务主题存储在一个文档结构中,而不是将其分解为多个关系结构。
2)键值数据库
只在两列中存储数据,键和值,特性是可以在值列同时存储简单和复杂的信息
3)列数据库
最接近关系型数据库。将数据视为行和值,不同的是,关系型数据库使用预定义的结构和简单的数据类型,列数据库如Cassandra可以使用复杂的数据类型,包括未格式化的文本和图形;此外列数据库将每列存储在自己的结构中。
4)图数据库
是为哪些使用一组节点就可以很好地表示它们之间的关系的数据而设计的。这些节点之间的连接数不确定。最大功能是寻找最短路径或最近邻居。这些功能在传统的关系型数据库中实现是极其复杂的。包括Neo4J、Allegro、Virtuoso
5、数据模型级别
数据库管理的三重模式
1)概念模式
体现了正在数据库中建模企业的“真实世界”视图,代表了企业当前的“最佳模式”或“经营方式”。
2)外模式
是数据库管理系统的各个用户操作与特定需求相关企业模型的子集。这些子集称为外模式
3)内模式
数据的“机器视图”由内模式描述,描述了企业信息的存储表示形式。
(1)概念数据模型(CDM)
是用一系列相关主题域的集合来描述概要数据需求。概念数据模型仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体和实体之间关系的描述。例如,要对学生和学校之间的关系进行建模,采用信息工程(IE)语法描绘的关系型概念数据模型。
(2)逻辑数据模型(LDM)
是对数据需求的详细描述,通常用于支持特定用法的语境。逻辑数据模型不受任何技术或特定实施条件的约束。逻辑数据模型通常是从概念数据模型扩展而来。
通过添加属性扩展概念数据模型
(3)物理数据模型
描述了一种详细的技术解决方案,通常以逻辑数据模型为基础,与某一类系统硬件、软件和网络工具相匹配。物理数据模型与特定技术相关。关系型数据库管理系统应被设计成具有特定功能的数据库管理系统。
维度模型的物理数据模型
1)规范模型
规范模型是物理模型的一个变种,用于描述系统之间的数据移动。该模型描述了在系统之间作为数据报或消息传递的数据结构。
2)视图
3)分区
4)逆规范化
①提前组合来自多个其他表的数据,以避免代价高昂的运行时连接
②创建更小的、预先过滤的数据副本,以减少昂贵的运行时计算和/或大型表的扫描
③预先计算和存储昂贵的数据计算结果,以避免运行时系统资源竞争。
6、规范化
是运用规则将复杂的业务转化为规范的数据结构的过程。规范化的基本目标是保证每个属性只在一个位置出现,以消除冗余或冗余导致的不一致性。整个过程需要深入理解每个属性,以及每个属性与主键的关系。
1)第一范式:确保每个实体都有一个主键
2)第二范式:确保每个实体都有最小的主键,每个属性都依赖于完整的主键
3)第三范式:确保每个实体都没有隐藏的主键,每个属性都不依赖于键值之外的任何属性
4)Boyce/Codd范式(BCNF):解决了交叉的复合候选键的问题。
5)第四范式:将所有三元关系分解成二元关系,直到这些关系不能再分解成更小的部分
6)第五范式:将实体内部的依赖关系分解成二元关系,所有联结依赖部分主键。
7、抽象化
泛化
将实体的公共属性和关系分组为超类实体
特化
而特化将实体中的区分属性分离为子类实体。这种特化通常基于实体实例中的属性值。
5.2 活动
5.2.1 规划数据建模
计划包括:
1)评估组织需求
2)确定建模标准
3)明确数据模型存储管理
交付成果:
1)图表
2)定义
3)争议和悬而未决的问题
4)血缘关系
5.2.2 建立数据模型
1、正向工程
是指从需求开始构建新应用程序的过程。
首先需要通过建立概念模型来理解需求的范围和核心术语;然后建立逻辑模型来详细描述业务过程;最后通过具体的建表语句来实现物理模型。
(1)概念数据模型建模
1)选择模型类型
2)选择表示方法
3)完成初始概念模型
4)收集组织中最高级的概念(名称)
5)收集与这些概念相关的活动
6)合并企业术语
7)获取签署
(2)逻辑数据模型建模
1)分析信息需求
2)分析现有文档
3)添加关联实体
用于描述多对多关系。关联实体从关系涉及的实体获取标识属性,并将它们放入一个新的实体中。该实体只描述实体之间的关系,并允许添加属性来描述这种关系,如有效日期和到期日期。
4)添加属性
属性添加到概念实体中
5)指定域
保证模型属性中格式和数值集的一致性。
6)指定键
分配给实体的属性可以是键属性,也可以是非键属性。键属性有助于从所有实体中识别出唯一的实体实例,可以是单独一个属性成为键,也可以是与其他键元素组合的部分键。
(3)物理数据建模
1)解决逻辑抽象
①子类型吸收
②超类型分区
2)添加属性细节
3)添加参考数据对象
①创建匹配的单独代码表
②创建主共享代码表
③将规则或有效代码嵌入到相应对象的定义中。
4)指定代理键
给业务分配不可见的唯一键值,与它们匹配的数据没有任何意义或关系。
5)逆规范化
6)建立索引
7)分区
8)创建视图
2、逆向工程
记录现有数据库的过程
物理数据建模是第一步,以了解现有系统的技术设计
逻辑数据建模是第二步,以记录现有系统满足业务的解决方案
概念数据建模是第三步,用于记录现有系统中的范围和关键术语。
5.2.3 审核数据模型
5.2.4 维护数据模型
5.3 工具
5.3.1 数据建模工具
自动实现数据建模功能的软件
5.3.2 数据血缘工具
是允许捕获和维护数据模型上的每个属性的源结构变化的工具。实现变更影响分析
5.3.3 数据分析工具
帮助探索数据内容,根据当前的元数据进行验证、识别数据质量和现有数据工件(如逻辑和物理模型、DDL和模型描述)的缺陷
5.3.4 元数据资料库
存储有关数据模型的描述性信息,包括图标和附带的文本以及通过其他工具和流程导入的元数据
5.3.5 数据模型模式
是可重复使用的模型结构,可以在很多场景下被广泛应用,有组件、套件和整合数据模型模式。
5.3.6 行业数据模型
5.4 方法
5.4.1 命名约定的最佳实践
元数据注册是一种表示组织中元数据的国际标准,包含与数据标准相关的几个部分,包括命名属性和编写定义
数据建模和数据库设计标准是有效满足业务数据需求的指导原则,它们符合企业架构和数据架构的要求,以确保数据质量标准。
5.4.2 数据库设计中的最佳实践
1)性能和易用性。确保用户可快速、轻松地访问数据,从而最大限度地提高应用程序和数据的业务价值
2)可重用性。确保数据库结构在适当的情况下,能够被多个应用重复使用,并且可用于多种目的(如业务分析、质量改进、战略规划、客户关系管理和流程改进。避免将数据库、数据结构或数据对象耦合到单个应用程序中。)
3)完整性。无论语境如何,数据应始终具有有效的业务含义和价值,并且应始终反映业务的有效状态。实施尽可能接近数据的数据完整性约束,并理解检测并报告数据完整性约束的违规行为。
4)安全性
应始终及时向授权用户提供真实准确的数据,且仅限授权用户使用。
5)可维护性
确保创建、存储、维护、使用和处置数据的成本不超过其对组织的价值,以能够产生价值的成本方式执行所有数据工作;确保尽可能快速地相应业务流程和新业务需求的变化。
5.5 数据建模和设计治理
5.5.1 数据建模和设计质量管理
1、开发数据建模和设计标准
1)标准数据建模和数据库设计可交付成果的列表和描述
2)适用于所有数据模型对象的标准名称、可接受的缩写和非常用单词的缩写规则列表
3)所有数据模型对象的标准命名格式列表,包括属性和分词
4)用于创建和维护这些可交付成果的标准方法的列表和说明
5)数据建模和数据库设计角色和职责的列表和描述
6)数据建模和数据库设计中捕获的所有元数据属性的列表和描述,包括业务元数据和技术元数据。
7)元数据质量期望和要求
8)如何使用数据建模工具的指南
9)准备和领导设计评审的指南
10)数据模型版本控制指南
11)禁止或需要避免的事项列表
2、评审数据模型以及数据库设计质量审查会议议程包括:
审查启动模型(如有)的项目
对模型所做的更改
考虑和拒绝的任何其他选项
新模型在多大程度上符合现有的建模或架构标准
3、管理数据模型版本与集成变更的记录,包括:
1)为什么why项目或情况需要变更
2)变更对象(What)以及如何(How)更改,包括添加了哪些表,修改或删除了哪些列等
3)变更批准的时间(When)以及将此变更应用于模型的时间
4)谁(Who)做出了变更
5)进行变更的位置(Where)在哪些模型中
5.5.2 度量指标
1)各模型多大程度上反映了业务需求
要确保数据模型代表需求
2)模型的完整性如何
需求的完整性和元数据的完整性
需求完整性意味着已经提出的每个需求都应在模型中得到满足
元数据的完整性是指模型周围的所有描述性信息也要完整
3)模型与模式的匹配度是多少
确保正在审查模型的具象级别(概念模型、逻辑模型或物理模型)和模式(关系、维度、NoSQL)与该类模型的定义相匹配
4)模型的结构如何
验证用于构建模型的设计实践,以确保最终可以从数据模型构建数据库。
5)模型的通用性如何
评审模型的扩展性或者抽象程度
6)模型遵循命名标准的情况如何
确保数据模型采用正确且一致的命名标准
7)模型的可读性如何
确保数据模型易于阅读
8)模型的定义如何
确保定义清晰、完整和准确
9)模型与企业数据架构的一致性如何
确认数据模型中的结构能否在更加广泛和一致的环境中应用,以便在组织中可以使用一套统一的术语和模型结构。
10)与元数据的匹配程度如何
确认存储在模型结构中的数据和实际数据是一致的。

第6章 数据存储和操作
6.1 引言
定义:数据存储与操作包括对存储数据的设计、实施和支持,最大化实现数据资源的价值,贯穿于数据创建/获取到处置的整个生命周期
包含两个子活动
(1)数据库操作支持
(2)数据库技术支持
6.1.1 业务驱动因素
业务连续性
6.1.2 目标和原则
目标:
1、贯穿整个数据生命周期,管理数据的可用性
2、确保数据资产的完整性
3、管理数据交易的性能
原则:
(1)识别自动化的机会并采取行动
(2)构建时就考虑重用的思想
(3)理解并适当使用最佳实践
(4)支持数据库的标准需求
(5)为项目中的DBA角色设置期望值
6.1.3 基本概念
1、数据库术语
(1)数据库
大型数据库也称为实例或模式
(2)实例
通过数据库软件,执行对某一特定存储区域的控制访问
(3)模式
模式是数据库或实例中的数据库对象的一个子集(Subset)。模式被用来将数据库对象组织成多个可管理的集合。
(4)节点
一台单独的计算机作为分布式数据库处理数据或者存储数据的一个部分
(5)数据库抽象
通用应用接口(API)通常用来调用数据库函数。
2、数据生命周期管理
包括为数据的获取、迁移、保留、过期和处置进行的实施策略和过程。
3、管理员
(1)生产DBA
主要负责数据操作管理,包括:
1)通过性能调优、监控、错误报告等活动,确保数据库的性能及可靠性
2)通过建立备份与恢复机制,确保在任何意外情况下数据能够被恢复
3)通过建立集群和容错机制,确保数据连续可用
4)执行其他数据库维护活动,如建立数据归档机制
创建以下可交付结果:
1)生产数据库环境。包括支持服务器上的数据库管理系统DBMS实例;提供足够的资源和容量,确保获得很好的性能;配置适当的安全性、可靠性和可用性级别。数据库系统管理员为DBMS的环境负责。
2)在生产环境中,控制数据库实施变更的机制和流程
3)针对各种可能导致数据丢失或数据损坏的情况,建立确保数据完整、可用和恢复的机制。
4)建立任何可能发生在数据库或数据服务器上的错误检测和报告的机制
5)提供与服务水平协议(SLA)相匹配的数据库服务,包括可用性、数据恢复及性能等。
6)建立伴随工作负载和数据量变化的数据库性能监控的机制和过程。
(2)应用程序DBA
应用程序DBA通常负责所有环境(开发、测试、QA及生产)中的一套或多套数据库,而不是指定负责管理某个环境的数据库系统。
(3)过程和开发DBA
过程DBA负责审查和管理数据库的过程对象。过程DBA专门开发和支持关系数据库控制和执行的过程逻辑:存储过程、触发器及用户自定义的函数(UDFs)。确保过程逻辑是按规划进行的、可实施的、经过测试的、可共享的(可重用的)。
开发DBA主要关注数据设计活动,包括创建和管理特殊用途的数据库,如“数据沙盒”或者“数据探索区”
两者统称开发DBA
(4)网络存储管理员
Network Storage Administrators,NSA。主要关注支持数据存储阵列的软硬件。不同于单一的数据库管理系统,多元化的网络存储阵列系统各有不同的关注特性和监控需求。
4、数据架构类型
(1)集中式数据库
将所有数据存放在一个地方的一套系统中,所有用户连接到这套系统进行数据访问。
(2)分布式数据库
通过扫描大量节点来快速获取数据。主流的分布式数据库技术是基于普通的商业硬件服务器来实现的。它被设计成可横向扩展,即从一台到成千上外胎服务器,而每台服务器提供本地的计算和存储能力。
1)联邦数据库
联邦提供的数据不需要对数据源进行额外复制或持久化。联邦数据库系统地将多个自治的数据库系统映射成一个单一的联邦数据库。联邦并没有将真实的数据整合到一起,而是通过数据互操作性将数据联邦视为一个大型对象来管理。
松耦合
需要多个组件数据库来构造他们自己的联邦模式
紧耦合
由组件数据库系统组成,用独立的进程构造,发布一个集成的联邦模式。
2)区块链数据库
属于一种联邦数据库,用于安全管理金融交易。也能用来进行合同管理或健康信息交换。
有两种结构类型:
单条记录
每个交易包含一条记录,每个区块包含一组带时间戳的交易,整个数据库由多个区块形成的链状结构组成,每个区块还包括链中前一个区块的信息。

新生成区块位于末端,一旦新区块产生,旧的区块(前一个)的哈希值就不再变化。
3)可视化/云计算平台
提供计算、软件、数据访问和存储服务,不要求终端用户了解提供服务系统的物理位置和相关配置。云计算是虚拟化、SOA(面向服务架构)和效用计算广泛使用的自然演进形态。
1)虚拟机镜像
允许用户购买虚拟机实例,只使用一段时间。
2)数据库即服务(DAAS)
3)管理托管在云上的数据库
DBA需要与网络和系统管理员协调,建立系统的项目集成机制,包括标准化、整合、虚拟化、数据自动备份与恢复以及数据安全,即:
1)标准化/整合
整合减少数据在组织存储位置的数量
识别关键战略数据
数据保留的周期
数据加密过程
数据复制策略
2)服务器虚拟化
允许将多个数据中心的设备(如服务器)进行替换或整合。减少了资金和运营成本,降低了能源消耗。
3)自动化
准备、配置、修正、版本管理及合规等一系列自动化任务
4)安全
需要与物理设施的安全一起考虑
5、数据处理类型
(1)ACID
含义是保证数据库事务可靠性不可或缺的约束
1)原子性(Atomicity)
要么所有操作都完成要么一个也不完成
2)一致性(Consistency)
事务必须时刻完全符合系统定义的规则,未完成的事务必须回退
3)隔离性(Isolation)
每个事务都是独立的
4)持久性(Durability)
事务一旦完成就不可撤销
(2)BASE
与ACID相反
1)基本可用(Basically Available)
即使节点发生故障,系统仍然能保证一定级别数据的可用性。数据可能过时,但系统仍然会给出响应。
2)软状态(Soft State)
数据处于持续流动的状态,当给出响应时,数据不保证是最新的。
3)最终一致性(Eventual Consistency)
数据在所有节点、所有数据库上最终状态是一致的,但并非每时每刻在每个事务里都是一致的。
(3)CAP
布鲁尔定理。是集中式系统在朝着分布式的系统方向发展过程中提出的理论。CAP定理指的是分布式系统不可能同时满足ACID的所有要求。系统规模越大,满足的要求点越少。
1)一致性
系统必须总是按照设计和预期的方式运行。
2)可用性
请求发生时系统时刻都保持可用状态,并对请求作出响应。
3)分区容错
偶尔发生数据丢失或者部分系统故障发生时,系统依然能够继续运行提供服务。
三选二:在任何共享数据的系统里,这3项最多可能同时满足其中两项。
Lambda架构设计就是该定理的运用:Lambda架构是通过两种路径方式来使用数据:当可用性和分区容错更重要时采用Speed路径,效率优先;当一致性和可用性重要时采用Batch路径
6、数据存储介质
(1)磁盘和存储区域网络(SAN)
Storage Area Network,磁盘阵列组成SAN
(2)内存
In-Memory Database,IMDB,从永久存储中将数据加载到内存中,所有的数据处理都在内存中完成。这相比在磁盘上处理数据的系统,事务响应速度更快。
(3)列压缩方案
列式数据库是为处理那些数据值存在大量重复的数据集而设计的,比如一个表有256列,列式存储并使用压缩技术,可以降低对I/O带宽的占用。
(4)闪存
集内存的访问速度和存储持久性于一体的特点。
闪存和SSD固态硬盘
7、数据库环境
(1)生产环境
是指处理所有生产业务流程发生的技术环境
(2)非生产环境
1)开发环境
任何补丁或更新进行测试的第一场所
2)测试环境
①质量保证测试(QA):依据需求进行功能测试
②集成测试:将独立开发或更新的多个模块作为一个整体系统进行测试。
③用户验收测试(UAT):从用户视角进行系统功能测试,
④性能测试:任何时候都可考虑进行的高复杂度或大容量的测试
3)数据沙盒或实验环境
数据沙盒是允许以只读的方式访问和管理生产数据的另一个环境。数据沙盒用于实验开发或者验证相关假设的数据,或者将用户自己开发的数据从外部获得的补充数据与生产数据进行合并。如同POC;沙盒可采用虚拟机
8、数据库组织模型
(1)层次型数据库
数据被组织成具有强制的父子关系的树形结构:每个父级可以有多个子级,但每个子级只有一个父级(也称为一对多关系)。目录树是层次数据库的一个示例。
(2)关系型数据库
并非表的关系而得名。基于集合理论和关系代数,其中数据元素或属性(列)与元组(行)相关。表是指具有相同结构的关系集。
1)多维数据库
允许同时对多个数据元素过滤器进行搜索,常用语数据仓库和商务智能BI
2)时态数据库
①有效时间
现实世界中一个真实事件或实体对象发生的时间范围
②事务时间
存储在数据库的事实被认为是真实的时间段
(3)非关系型数据库
可以将数据存储为简单的字符串或者完整的文件。使用的一致性模型约束较少,这种方法/机制的动机包括:简化设计、水平扩展性以及对可用性更好的控制。
1)列式数据库
①当需要对很多行进行聚合计算时,面向列的存储组织更加高效,因为可以不必访问行里的其他列就有效地写入数据,替换旧的列数据。
②当一次向所有航更新某个列时,面向列的存储组织更加高效,因为可以不必访问行里的其他数据
③当同时需要获取一行中的许多列,并且行的体量相对较小,单次磁盘访问就能将整行检索时,,面向行的存储更高效
④如果写入一条新记录时同时要提供所有的行数据,那么面向行的组织效率更高:整个行的数据可以用单次磁盘操作写入
⑤在实践中,面向行的存储布局非常适合于在线事务处理OLTP类的工作负载,重点是交互式事务。面向列的存储非常适合于在线分析处理OLAP类的工作服在,例如数仓通常涉及对所有数据的少量高度复杂的查询
2)空间数据库
用于存储和查询几何空间中定义的对象数据。
①空间评估
计算线条长度、多边形面积 、几何图形之间的距离等
②空间功能
修改现有特征以创建新特征
③空间预测
允许对几何图形之间的空间关系进行真假查询
④几何构造
通常通过描述所定义形状的顶点来创建新的几何图形
⑤观测功能
查询并返回某个特征的特定信息
3)对象/多媒体数据库
包括一个分层存储管理系统,用于高效管理磁介质和光存储介质;还包括表示系统基础对象的集合
4)平面文件数据库
描述了将数据集编码为单个文件的各种方法。平面文件可以是纯文本文件或二进制文件。
只包含数据以及长度和分隔符不同的记录。更广泛地说,这个术语是指以行和列的形式存在于单个文件中的任何数据库,除此之外,记录和字段之间没有任何关系或链接。
5)键值对
包含两部分:键的标识符和值
①文档数据库
面向文档的数据库包含由结构和数据组成的文件集合,每个文档都分配了一个键。可以使用XML或JSON结构
②图数据库
图数据库存储关键值对,关注重点是组成图的节点关系,而不是节点本身。
6)三元组存储
由主语、谓语、宾语组成的数据实体称为三元组存储(Triplestore)。在资源描述框架(Resource Description FrameWork,RDF)术语中,三元组存储由表示资源的主语、表示资源和对象之间关系的谓语以及对象本身组成。三元组存储是一个专门构建的数据库,用于以主谓宾表达式的形式存储和检索三元组。
①原生三元组存储(Native Triplestores)
那些从零开始实现并利用RDF数据模型来高效地存储和访问RDF数据的三元组存储。
②RDBMS支持的三元组存储(RDBMS-backed Triplestores)
在现有的RDBMS之上添加RDF描述层构建的三元组存储。
③NoSQL三元组存储(NoSQL Triplestores)
目前正在被研究可能的RDF存储管理器
三元组存储适合:分类和同义词管理、链接数据集成和知识门户
9、专用数据库
1)计算机辅助设计和制造(CAD/CAM)
2)地理信息系统(GIS)
3)购物车功能
10、常见数据库过程
(1)数据归档
归档是将数据从可立即访问的存储介质迁移到查询性能较低的存储介质上的过程。
必须与分区策略一致,确保最佳可用性和数据保留度。方法包括:
1)创建一个辅助存储区域,优先建在辅助数据库服务器上
2)将当前的数据库表分区成可以归档的单元
3)将不经常使用的数据复制到单独的数据库
4)创建磁带或磁盘备份
5)创建数据库任务,定期清理不再适用的数据
当归档数据不同步或不一致时,有以下处理方法:
1)确定是否保留历史归档或有多少历史归档需要保留,不需要的历史归档可以清除
2)对于重大技术调整,在调整前将归档恢复到原始系统、升级或迁移到新系统,并在新系统下重新归档数据
3)对于源数据库结构发生更改的高价值归档数据,恢复归档,并对数据结构进行相应更改,用新结构重新归档
4)对于相对低价值的低频访问归档,在源系统的技术或结构发生改变时,保持旧系统的小版本,供有限的数据访问,并根据需要用旧系统的数据格式从归档中抽取数据。
(2)容量和增长预测
1)先确定容量
2)放的速度有多快
3)取的速度有多快
(3)变动数据捕获
Change Data Capture,CDC。是指检测到数据的变动并确保与变动相关的信息被适当记录的过程。
通常是基于日志的复制,是一种非侵入性方法,将数据更改复制到目标端而不影响源端
两种不同的检测和收集更改方法:数据版本控制-评估标识已改动过行的列,或通过读取日志。
(4)数据清除
清除是指从存储介质中彻底删除数据并让它无法恢复的过程。
(5)数据复制
意味着多个存储设备上存放着相同的数据。
两种模式
1)主动复制
不存在主副本,可以在每个副本上主动创建和存储来自其他副本的相同数据
2)被动复制
首先在主副本上创建和存储数据,然后把更改的状态传送到其他副本上。
两个维度的扩展方式:
1)水平数据扩展
拥有更多的数据副本
2)垂直数据扩展
将数据副本方法哦距离更远的不同地理位置上
两种主要的复制方式:
1)镜像(Mirroring)
作为两阶段提交过程的一部分,在主库的更新会立即(相对而言)同步给辅助数据库
2)日志传送(Log Shipping)
辅助数据库定时接收并应用从主数据库传来的事务日志副本
镜像比日志成本高,镜像通常对辅助服务器有效,日志可以用来更新更多的辅助服务器
(6)韧性与恢复
数据库韧性是衡量系统对错误条件容忍度的指标。如果一个系统能够容忍高级别的处理错误,并且仍能像预期一样工作,那么它就具有很强的韧性。
如果数据库可以检测异常,并提前终止或从通用的错误处理办法(如失控查询)中自动恢复,则认为它具有韧性
三种恢复类型:
1)立即恢复
有些问题有时需要通过设计来解决,例如可以通过预判并自动解决问题,切换到备用系统
2)关键恢复
它是指尽快恢复以尽量减少业务延迟或业务中断的恢复计划
3)非关键恢复
它是指该类业务可以延迟恢复,直到更关键的系统恢复完毕
(7)数据保留
数据保留(Retention)是指数据保持可用的时间。数据保留规划应该是物理数据库设计的一部分,数据保留需求也会影响容量规划
(8)数据分片
分片(Sharding)是一个把数据库中的一部分独立出来的过程。因为分片的复制只是一个很小的文件,所以分片可以独立于其他分片进行更新。
6.2 活动
6.2.1 管理数据库技术
主要参考模型是信息技术基础设施库
1、理解数据库的技术特征
2、评估数据库技术
选择DBMS软件时应考虑下列一些因素:
1)产品架构和复杂性
2)容量和速度限制,包括数据流传送速率
3)应用类别,如事务处理、商务智能、个人资料
4)特殊功能,如时间计算支持
5)硬件平台及操作系统支持
6)软件支持工具的可用性
7)性能评测,包括实时统计信息
8)可扩展性
9)软件、内存和存储需求
10)韧性,包括错误处理和错误报告
与技术本身无直接关系,与采购组织和供应商有直接关系的因素:
1)组织对技术风险的偏好
2)提供训练有素的技术专业人员
3)拥有成本,如软件许可费、维护费和计算资源成本
4)供应商声誉
5)供应商支持策略和版本计划
6)其他客户案例
3、管理和监控数据库技术
DBA通常是作为后台技术支持与服务台和供应商的支持人员一起,理解、分析和解决用户问题。
6.2.2 管理数据库操作
1、理解需求
(1)定义存储需求
(2)识别使用模式
1)基于事务型
2)基于大数据集的读或写型
3)基于时间型
4)基于位置型
5)基于优先级型
(3)定义访问需求
数据访问包括与存储、获取或者处理存储在其他数据库和资料库中的数据等相关的活动。
2、规划业务连续性
1)物理数据库服务器失效
2)一块或多块磁盘存储设备失效
3)数据库失效,包括主要的数据库、临时的存储数据库和事务日志等
4)数据库索引或数据页损坏
5)数据库和日志段的文件系统失效
6)数据库或事务日志的备份文件失效
(1)备份数据
(2)恢复数据
3、创建数据库实例
DBA负责创建数据库实例,相关活动包括:
1)安装和更新DBMS软件
2)维护多种环境的安装,包括不同的DBMS版本
3)安装和管理相关的数据技术。
(1)物理存储环境管理
1)配置识别
2)配置变更控制
3)配置状态报告
4)配置审计
(2)管理数据访问控制
1)受控环境
2)物理安全
3)监控
4)控制
(3)创建存储容器
(4)应用物理数据模型
存储对象
索引对象以及执行数据质量规划
连接数据库对象
实现数据库性能所需的任何封装代码对象
(5)加载数据
(6)管理数据复制
通过以下方面的建议来影响关于数据复制过程的决策
1)主动或被动复制
2)基于分布式数据系统的分布式并发控制
3)在数据更改控制过程中,通过时间戳或版本号来识别数据更新的适当方法。
4、管理数据库性能
通过以下步骤管理数据库的性能:
1)设置和优化操作系统及应用程序参数
2)管理数据库的连接
3)与系统开发人员和网络管理员合作,优化操作系统、网络和事务处理中间件,以方便数据库更好地运行
4)提供合适的存储,让数据库与存储设备和存储管理软件有效配合
5)提供容量增长预测,支持存储获取和一般数据生命周期管理活动
6)与系统管理员一起,提供操作工作负载和基准,以支持SLA管理、收费计算、服务器容量以及规划的生命周期轮换
(1)设置数据库性能服务水平
(2)管理数据库可用性
1)可管理型
创建和维护环境的能力
2)可恢复性
中断发生后重新建立服务的能力,修复由于不可预见的事件或组件故障导致的错误的能力
3)可靠性
在规定时间内提供指定水平服务的能力
4)可维护性
识别存在问题的能力,诊断原因,修复/解决问题
许多因素可能影响可用性:
1)计划性停机
出于维护
出于升级
2)非计划性停机
①服务器硬件故障
②磁盘硬件故障
③操作系统故障
④数据库软件故障
⑤数据中心站点故障
3)应用问题
①安全和授权问题
②严重性能问题
③恢复失败
4)数据问题
①数据损坏
②数据库对象丢失
③数据丢失
④数据复制问题
5)人为错误
确保可用性可能的工具和方法:
1)运行数据库备份工具
2)运行数据库重组工具
3)运行统计信息搜集工具
4)运行数据完整性检查工具
5)自动执行上述这些工具
6)利用表空间聚类和分区
7)跨库进行数据复制保证高可用性
(3)管理数据库运行
DBA部署数据库监控,监视数据库的运行、数据变更日志的使用和复制环境的同步等情况。日志大小和位置需要空间。
(4)维护数据库性能服务水平
1)事务性能与批处理性能
2)问题修复;性能低下的常见原因:
①内存分配和争用
②锁与阻塞
③不准确的数据库统计信息
④不良代码
⑤低效而复杂的表连接
⑥不当的索引
⑦应用程序活动
⑧过载的服务器
⑨数据库的易变性
⑩失控的查询语句
(5)维护备用环境
1)开发环境
2)测试环境
质量保证 集成测试 用户验收 性能测试
3)数据沙箱
检验假设和开发新的数据使用
4)备用的生产环境
支持脱机备份、故障转移和韧性支持
5、管理测试数据集
6、管理数据迁移
1)将过度使用的存储设备上的数据转移到一个单独的环境中
2)根据需要将数据移动到速度更快的存储设备上
3)实施数据生命周期管理策略
4)将数据从旧的存储设备(无论是报废还是停止租赁)迁移到线下或云存储上
6.3 工具
6.3.1 数据建模工具
生成数据库数据定义语言脚本(DDL),支持逆向工程,验证命名标准 检查拼写、存储元数据
6.3.2 数据库监控工具
自动监控关键指标如容量、可用性、缓存性能、用户统计等,并向DBA和网络存储管理员发出当前数据库问题报警。大多数的数据库监控工具可以同时监控多种类型的数据库
6.3.3 数据库管理工具
配置功能、安装补丁和升级、备份和恢复、数据库克隆、测试管理和数据清理任务。
6.3.4 开发支持工具
包含可视化界面,用于连接和执行数据库上的命令。
6.4 方法
6.4.1 在低阶环境中测试
6.4.2 物理命名标准
利用ISO/IEC 11179-元数据注册表(Metadata Registries,MDR)处理数据的语义、数据的表示和数据描述的注册。
6.4.3 所有变更操作脚本化
6.5 实施指南
6.5.1 就绪评估/风险评估
(1)数据丢失的风险
由于技术或程序错误,或者处于恶意的目的,数据可能会丢失。
(2)技术准备的风险
对于新技术需要IT技能和经验准备
6.5.2 组织和文化变化
1)主动沟通
2)站在对方的立场上与之沟通
3)保持专注于业务
4)对他人要有帮助
5)不断学习
6.6 数据存储和数据治理
6.6.1 度量指标
数据存储的度量指标:
1)数据库类型的数量
2)汇总交易统计
3)容量指标
4)已使用存储的数量
5)存储容器的数量
6)数据对象中已提交和未提交块或页的数量
7)数据队列
8)存储服务使用情况
9)对存储服务提出的请求数量
10)对使用服务的应用程序性能的改进
性能度量评估指标:
1)事务频率和数量
2)查询性能
3)API服务性能
操作度量指标:
1)有关数据检索时间的汇总统计
2)备份的大小
3)数据质量评估
4)可用性
服务度量指标:
1)按类型的问题提交、解决和升级数量
2)问题解决时间
6.6.2 信息资产跟踪
数据存储治理中的一部分是确保数据库遵守所有许可协议和监管要求。应对软件使用许可、年度支持费用以及服务器租赁协议和其他固定费用,进行跟踪和年审。
6.6.3 数据审计与数据有效性
数据审计
是根据定义的标准对数据集进行评估的过程,通常是对数据集的特定关注点进行审计。审计的目的是为了确定数据的存储是否符合合同和方法要求。数据审计方法可能包括一个项目特定和全面的检查表、所需的可交付成果和质量控制标准
数据验证
是根据既定的验收标准评估存储数据的过程,以确定其质量和可用性。数据验证程序依赖于数据质量团队或其他数据使用者的需求所建立的标准。
DBA提供部分支持工作:
1)帮助制定和审查方法
2)进行初步的数据筛选和审查
3)开发数据监控方法
4)应用统计信息、地理统计信息、生物统计信息等技术来优化数据分析
5)支持采样及分析
6)审核数据
7)提供数据发现的支持
8)担任与数据库管理相关问题的主题专家
第7章 数据安全
7.1 引言
数据安全包括安全策略和过程的规划、建立与执行,为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面:
(1)利益相关方
(2)政府法规
(3)特定业务关注点
(4)合法访问需求
(5)合同义务
7.1.1 业务驱动因素
1、降低风险
对组织数据进行分类分级的整个流程:
1)识别敏感数据资产并分类分级
2)在企业中查找敏感数据
3)确定保护每项资产的方法
4)识别信息与业务流程如何交互
2、业务增长
3、安全性作为资产
7.1.2 目标和原则
目标:
1)支持适当访问并防止对企业数据资产的不当访问
2)支持对隐私、保护和保密制度、法规的遵从
3)确保满足利益相关方对隐私和保密的要求
原则:
1)协同合作
2)企业统筹
3)主动管理
4)明确责任
5)元数据驱动
6)减少接触以降低风险
7.1.3 基本概念
1、脆弱性
是系统中容易遭受攻击的弱点或缺陷,本质上是组织防御中的漏洞。某些脆弱性称为漏洞敞口。
2、威胁
是一种可能对组织采取的潜在进攻行动。威胁包括发送到组织感染病毒的电子邮件、使网络服务器不看重负以致无法执行业务(拒绝服务攻击)的进程,以及对已知漏洞的利用等。
存在威胁的地方也称为攻击面
3、风险
风险既指损失的可能性,也指构成潜在损失的事物或条件。
可以从以下几方面计算风险:
1)威胁发生的概率及其可能的频率
2)每次威胁事件可能造成的损害类型和规模,包括声誉损害。
3)损害对收入或业务运营的影响
4)发生损害后的修复成本
5)预防威胁的成本,包括漏洞修复手段
6)攻击者可能的目标或意图
4、风险分类:
1)关键风险数据:
由于个人信息具有很高的直接财务价值,因此内部和外部各方可能会费尽心思寻求未经授权使用这些信息。滥用关键风险数据不仅会上海个人,还会导致公司遭受重大处罚,增加挽留客户、员工的成本以及损害公司品牌与声誉,从而对公司造成财务损害。
2)高风险数据
高风险数据为公司提供竞争优势,具有潜在的直接财务价值,往往被主动寻求未经授权使用。
损害可能导致法律风险、监管处罚以及品牌和声誉受损
3)中等风险数据
对几乎没有实际价值的公司非公开信息,未经授权可能会对公司产生负面影响
5、数据安全组织
首席信息安全官(CISO)
任何情况下,数据管理者都要参与数据安全工作。
6、安全过程
(1)4A
1)访问(Access)
2)审计(Audit)
3)验证(Authentication)
4)授权(Authorization)
5)权限(Entitlement)
(2)监控
主动监控:检测机制。系统应包括检测意外事件(包括潜在的安全违规)的监视控制。包含机密信息的应主动、实时监控。
被动监控:评价机制。是通过系统定期捕获系统快照,并将趋势与基准或其他标准进行比较,跟踪随时发生的变化。
7、数据完整性
在安全性方面,数据完整性(Data Integrity)是一个整体状态要求,以免于遭受不当增删改所造成的影响。
萨班斯法案主要涉及对如何创建和编辑财务信息的规则进行识别,以保护财务信息的完整性。
8、加密
加密(Encryption)是将纯文本转换为复杂代码,以隐藏特权信息、验证传送完整性或验证发送者身份的过程。
(1)哈希
Hash将任意长度数据转换为固定长度数据表示。即使知道所使用的的确切算法和应用顺序,也无法解密出原始数据。通常用于对传送完整性或身份的验证。常见的哈希算法有MDS和SHA
(2)对称
对称加密使用一个密钥来加解密数据。发送方和接收方都必须具有读取原始数据的密钥。可以逐个字符加密数据(如在传送中),也可对数据块加密。
常见的私钥算法包括数据加密标准(DES)、三重DES(3DES)、高级加密标准(AES)和国际数据加密算法(IDEA)。DES可被多种手段攻击;Cyphers Twofish算法和Serpent算法也被视为安全算法。
(3)非对称
在非对称加密中,发送方和接收方使用不同的密钥。发送方使用公开提供的公钥进行加密,接收方使用私钥解密显示原始数据。当许多数据源只需将受保护的信息发送给少数接收方(如将数据提交到清算交易所)时,这种加密方法非常有用。
非对称加密算法包括RSA加密算法和Diffie-Hell-man密钥交换协议等。PGP是一个免费的公钥加密应用程序。
9、混淆或脱敏
可通过混淆处理(变模糊或不准确)或脱敏(删除、打乱或以其他方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其他数据集的关系。
脱敏分为两种类型:
(1)静态数据脱敏:永久且不可逆转地更改数据。不会在生产环境使用。
1)不落地脱敏
当在数据源和目标环境之间移动需要脱敏或混淆处理时,会采用不落地脱敏。不会留下中间文件或带有未脱敏数据的数据库,不落地方式很安全。遇到问题可以重新运行脱敏过程。
2)落地脱敏
当数据源和目标相同时,可使用落地脱敏。从数据源中读取未脱敏数据,进行脱敏操作后直接覆盖原始数据。
假定当前位置不应该保留敏感数据,在移动至不安全位置之前就应该进行脱敏,存在一定风险,进程失败则很难还原为可用格式。
(2)动态数据脱敏
是在不更改基础数据的情况下,在最终用户或系统中改变数据的外观。
(3)脱敏方法
1)替换
将字符或整数值替换为查找或标准模式中的字符或整数值。
2)混排
3)时空变异
日期前后移动若干天,小到足以保留趋势
4)数值变异
应用一个随机因素,重要到使他无法识别
5)取消或删除
6)随机选择
部分或全部数据元素替换为随机字符或一系列单个字符
7)加密技术
8)表达式脱敏
将所有值更改为一个表达式的结果。
9)键值脱敏
指定的脱敏算法/进程结果必须是唯一可重复的,用于数据库键值字段脱敏。这种类型脱敏对用于测试需要保持数据在组织范围内的完整性极为重要。
10、网络安全术语
(1)后门
是指计算机系统或应用程序的忽略隐藏入口。
(2)机器人或僵尸
是已被恶意黑客使用特洛伊木马、病毒、网络钓鱼或下载受感染文件接管的工作站。
(3)Cookie
是网站在计算机硬盘上安放的小型数据文件,用于识别老用户并分析其偏好。Cookie用于互联网电子商务。
(4)防火墙
防火墙是过滤网络流量的软件和硬件,用于保护单个计算机或整个网络免受未经授权的访问和免遭企图对系统的攻击。
(5)周界
Perimeter,是指组织环境与外部系统之间的边界。通常将防火墙部署在所有内部和外部环境之间。
(6)DMZ
De-Militarized Zone,非军事区,指组织边缘或外围区域。在DMZ和组织之间设有防火墙,DMZ环境与互联网之间始终设有防火墙。DMZ环境用于传递或临时储存在组织之间移动的数据。
(7)超级用户账户
超级用户账户是具有系统管理员或超级用户访问权限的账户,仅在紧急情况下使用。这些账户的凭据保存要求具有高度安全性,只有在紧急情况下才能通过适当的文件和批准发布,并在短时间内到期。
(8)键盘记录器
是一种攻击软件,对键盘上键入的所有击键进行记录,然后发送到互联网上的其他地方。
(9)渗透测试
在渗透测试(Penetration Testing)中,来自组织本身或从外部安全公司聘任的“白帽”黑客试图从外部侵入系统,正如恶意黑客一样,试图识别系统漏洞。通过渗透测试发现的漏洞应该在应用程序正式发布之前予以解决。
(10)虚拟专用网络
使用不安全的互联网创建进入组织环境的安全路径或“隧道”,隧道是高度加密的。VPN允许用户和内部网络之间通信,通过使用多重身份验证元素连接到组织环境外围的防火墙,VPN对所有传送数据进行加密。
11、数据安全类型
(1)设施安全
是抵御恶意行为人员的第一道防线,设施上至少应具有一个锁定能力的数据中心,其访问权限仅限于授权员工。
(2)设备安全,标准包括:
1)使用移动设备连接的访问策略
2)在便携式设备(如笔记本计算机、DVD、CD或USB驱动器)上存储数据
3)符合记录管理策略的设备数据擦除和处置
4)反恶意软件和加密软件安装
5)安全漏洞的意识
(3)凭据安全
1)身份管理系统
2)电子邮件系统的用户ID标准
3)密码标准
4)多因素识别
(4)电子通信安全
12、数据安全制约因素
保密和监管的主要区别是要求来源不同,保密要求来自内部,监管来自外部定义。另外区别是任何数据集只能有一个密级,其密级是基于最敏感的数据项设立;然而监管分类是附加的,单个数据集可能根据多个监管类别限制数据,应执行每种法规类别所需的所有操作以及保密要求。
1)保密等级
机密或私密
机密信息仅在“需要知道”的基础上共享
2)监管要求
监管信息在“允许知道”的基础上共享。
(1)机密数据
1)对普通受众公开
2)仅内部使用(Interneal Use Only)
3)机密(Confidential)
若无恰当的保密协议或类似内容,不得在组织以外共享。
4)受限机密(Restricted Confidential)
要求个人通过许可才能获得资格,仅限于特定需要知道的个人。
5)绝密(Registered Confidential)
信息机密程度非常高,任何信息访问者都必须签署一份法律协议才能访问数据,并承担保密责任。
(2)监管限制的数据
1)法规系列举例
①个人身份信息(PII)
也称为个人隐私信息PPI,包括任何可以识别个人或一组人的信息。
②财务敏感数据
③医疗敏感数据/个人健康信息(PHI)
④教育记录
2)行业法规或基于合同的法规
①支付卡行业数据安全标准(PCI-DSS)
②竞争优势或商业机密
③合同限制
13、系统安全风险
识别风险的第一步是确定敏感数据的存储位置以及这些数据需要哪些保护,还需确定系统的固有风险。
(1)滥用特权
解决权限过大的方案是查询级访问控制
(2)滥用合法特权
故意和无意滥用
部分解决滥用合法特权的方案是数据库访问控制
(3)未经授权的特权升级
防止特权升级漏洞:将传统入侵防护系统(IPS)和查询级访问控制入侵防护相结合。
(4)服务账户或共享账户滥用
1)服务账户
便利性在于可自定义对进程的增强访问,如果用于其他目的,则无法跟踪到特定的用户或管理员。
服务账户的使用限制为特定系统上的特定命令或任务,需要文档和批转才能分发凭据。考虑每次使用时分配新密码。
2)共享账户
默认不应使用共享账户
(5)平台入侵攻击
定期软件升级(补丁)
入侵防御系统IPS
入侵检测系统IDS
(6)注入漏洞
在SQL注入攻击中,攻击者将未经授权的数据库语句插入(或注入)到易受攻击的SQL数据通道中,如存储过程和WEB应用程序的输入空间。
通常作为合法命令执行,攻击者可以不受限制地访问整个数据库。
(7)默认密码
(8)备份数据滥用
备份数据库加密
14、黑客行为/黑客
15、网络钓鱼/社工威胁
通常涉及直接通信(无论是当面、通过电话,还是通过互联网),旨在诱使有权访问受保护数据的人提供该信息(或信息访问途径)给拟用于犯罪或恶意目的人。
社会工程是指恶意黑客试图诱骗人们提供信息或访问信息的方法。
网络钓鱼是指通过电话、即时消息或电子邮件诱惑使接收方在不知情的情况下提供有价值的信息或个人隐私。通常,这些呼叫似乎来自合法来源。
16、恶意软件
(1)广告软件
从互联网下载至计算机的间谍软件
(2)间谍软件
是指未经同意而潜入计算机以跟踪在线活动的任何软件程序
(3)特洛伊木马
伪装或嵌入合法软件
(4)病毒
是一种计算机程序,它将自身附加到可执行文件或易受攻击的应用程序上,能造成从让人讨厌到极具破坏性的后果。
(5)蠕虫
一种自己可以在网络中进行复制和传播的程序
(6)恶意软件来源
1)即时消息
2)社交网
3)垃圾邮件,排除模式包括:
①已知的垃圾邮件传送域
②抄送或密送的地址超出限量
③电子邮件正文只有一个超链接的图
④特定文本字符串或单
7.2 活动
数据安全活动包括确定需求、评估当前环境的差距或风险、实施安全工具与流程以及审核数据安全措施,以确保其有效。
7.2.1 识别数据安全需求
1、业务需求
2、监管要求
1)支付卡行业安全标准PCI DSS
2)欧盟的巴塞尔协议II
3)客户信息保护的FTC(联邦贸易委员会)标准(美国)
7.2.2 制定数据安全制度
1)企业安全制度
员工访问设施和其他资产的全局策略、电子邮件标准和策略、基于职位或职务的安全访问级别以及安全漏洞报告策略。
2)IT安全制度
目录结构标准、密码策略和身份管理框架
3)数据安全制度
单个应用程序、数据库角色、用户组和信息敏感性的类别。
7.2.3 定义数据安全细则
1、定义数据保密等级
一般用途到绝密
2、定义数据监管类别
安全分级和监管分类的一项关键原则是,大多数信息可以聚合,从而使其具有更高或更低的敏感性。
分类分级的工作成果是一组经正式批准的安全分级和监管类别,以及从中央存储库中获得此类元数据的流程,以便业务和技术员工了解他们所处理、传送和授权信息的敏感性。
3、定义安全角色
方法有两种:网格(从数据开始)或层次结构(从用户开始)
(1)角色分配矩阵
基于数据机密性、法规和用户功能,矩阵可用于映射数据的访问角色。
(2)角色分配层次结构
在工作组或业务单元级别构建组定义。在层次结构中组织这些角色,以便子角色进一步限制父角色的权限。
7.2.4 评估当前安全风险
1)存储或传送的数据敏感性
2)保护数据的要求
3)现有的安全保护措施
7.2.5 实施控制和规程
满足控制过程可能实施和维护如下流程:
1)根据用于跟踪所有用户权限请求的变更管理系统,验证分配的权限
2)需要工作流审批流程或签名的纸质表单,来对每个变更请求记录和归档
3)包括取消授权流程,对工作状态或部门不再适合继续拥有某些访问权限的人取消授权。
(1)分配密级
(2)分配监管类别
(3)管理和维护数据安全
1)控制数据可用性/以数据为中心的安全性
管理用户权限,以及对在技术上基于权限的访问控制的结构(数据脱敏、视图创建)等。
2)监控用户身份验证和访问行为
1)监管风险
2)检测和恢复风险
3)管理和审计职责风险
4)依赖于不适当的本地审计工具的风险
基于网络的审计设备的优点:
1)高性能
在线运行,对数据库影响很小
2)职责分离
独立于DBA运行,将审计职责与管理职责分开
3)精细事务跟踪
支持高欺诈检测、取证和恢复。日志包括源应用程序名称、完整查询文本、查询响应属性、源操作系统、时间和源名称等详细信息。
(4)管理安全制度遵从性
1)管理法规遵从性
①衡量授权细则和程序的合规性
②确保所有数据需求都是可衡量的,因此也是可审计的
③使用标准工具和流程保护存储和运行中的受监督数据
④发现潜在不合规问题以及存在违反法规遵从性的情况时,使用上报程序和通知机制。
2)审计数据安全和合规活动
①评估制度和细则,确保明确定义合规控制并满足法规要求
②分析实施程序和用户授权实践,确保符合监管目标、制度、细则和预期结果。
③评估授权标准和规程是否充分且符合技术要求
④当发现存在违规或潜在违规时,评估所要执行的上报程序和通知机制。
⑤审查外包和外部供应商合同、数据共享协议以及合规义务,确保业务合作伙伴履行义务及组织履行其保护受监管数据的法律义务。
⑥评估组织内安全实践成熟度,并向高级管理层和其他利益相关方报告“监管合规状态”
⑦推荐的合规制度变革和运营合规改进。
7.3 工具
7.3.1 杀毒软件/安全软件
7.3.2 HTTPS
7.3.3 身份管理技术
7.3.4 入侵侦测和入侵防御软件
7.3.5 防火墙(防御)
7.3.6 元数据跟踪
有助于组织对敏感数据的移动进行跟踪,存在风险:外部代理可从与文档关联的元数据中检测出内部信息。
7.3.7 数据脱敏/加密
限制敏感数据的移动
7.4 方法
7.4.1 应用CRUD矩阵
数据-流程矩阵,数据-角色关系矩阵,有助于映射数据访问需求,并指导数据安全角色组、参数和权限定义。CRUD-创建、移动、更新、删除
CRUDE-执行
7.4.2 即时安全补丁部署
7.4.3 元数据中的数据安全属性
元数据存储库对于确保企业数据模型在跨业务流程使用中的完整性和一致性至关重要。
7.4.4 项目需求中的安全要求
分析阶段详细确定数据和应用程序安全要求。
还可用于选择适当的供应商/采购软件包
7.4.5 加密数据的高效搜索
减少需要解密数据量的方法之一是采用相同的加密方法来加密搜索条件(如字符串),然后用密文去查找匹配项
7.4.6 文件清理
文件清理是在文件共享之前从中清理元数据(如历史变更记录跟踪)的过程。文件清理降低了注释中的机密信息可能被共享的风险。特别在合同中。
7.5 实施指南
7.5.1 就绪评估/风险评估
组织可通过以下方式提高合规性:
1)培训
2)制度的一致性
3)衡量安全性的收益
4)为供应商设置安全要求
5)增强紧迫感
6)持续沟通
7.5.2 组织与文化变革
7.5.3 用户数据授权的可见性
7.5.4 外包世界中的数据安全
1)服务水平协议(SLA)
2)外包合同中的有限责任条款
3)合同中的审计权条款
4)明确界定违反合同义务的后果
5)来自服务提供商的定期数据安全报告
6)对供应商系统活动进行独立监控
7)定期且彻底的数据安全审核
8)与服务提供商的持续沟通
9)如果供应商位于另一国家/地区并发生争议时,应了解合同法中的法律差异。
CRUD(创建 读取 更新 删除)矩阵映射跨业务流程、应用程序、角色和组织的数据职责,以跟踪数据转换、血缘关系和监管链。执行业务决策或应用程序功能(如批准审查、批准订单)的能力必须包含在矩阵中
RACI(负责、批注、咨询、通知)矩阵:可成为合同协议和数据安全制度的一部分。通过定义责任矩阵在参与外包的各方之间确立明确的问责制和所有权,从而支持总体数据安全制度及其实施。
7.5.5 云环境中的数据安全
共担责任、定义数据监管链以及定义所有权和托管权尤为重要。
7.6 数据安全治理
7.6.1 数据安全和企业架构
安全架构涉及:
1)用于管理数据安全的工具
2)数据加密标准和机制
3)外部供应商和承包商的数据访问指南
4)通过互联网的数据传送协议
5)文档要求
6)远程访问标准
7)安全漏洞事件报告规程
安全架构对以下数据集成尤为重要:
1)内部系统和业务部门
2)组织及其外部业务合作伙伴
3)组织和监管机构
面向服务集成的架构模式(SOA),将要求不同于传统电子数据交换(EDI)集成体系架构的数据安全模式来实现。
7.6.2 度量指标
指标衡量流程的进度:
开展的审计量、安装的安全系统、报告的事件数、系统中未经检查的数据量
1、安全实施指标
1)安装了最新安全补丁程序的企业计算机百分比
2)安装并运行最新反恶意软件的计算机百分比
3)成功通过背景调查的新员工百分比
4)在年度安全实践测验中得分超过80%的员工百分比
5)已完成正式风险评估分析的业务单位的百分比
6)在发生如火灾、地震、风暴、洪水、爆炸等其他灾难时,成功通过灾难恢复测试的业务流程百分比
7)已成功解决审计发现的问题百分比
可以通过列表或统计数据的指标跟踪趋势:
1)所有安全系统的性能指标
2)背景调查和结果
3)应急响应计划和业务连续性计划状态
4)犯罪事件和调查
5)合规的尽职调查以及需要解决的调查结果数量
6)执行的信息风险管理分析以及导致的可操作变更的分析数量
7)制度审计的影响和结果,如清洁办公桌制度检查,由夜班安保人员在换班时执行
8)安全操作、物理安全和场所保护统计信息
9)记录在案的、可访问的安全标准(制度)
10)相关方遵守安全制度的动机
11)业务行为和声誉风险分析,包括员工培训
12)基于特定类型数据(如财务、医疗、商业机密和内部信息)的业务保健因素和内部风险
13)管理者和员工的信心和影响指标,作为数据信息安全工作和制度如何被感知的指标。
2、安全意识指标
1)风险评估结果
2)风险事件和配置文件
3)正式的反馈调查和访谈
4)事故复盘、经验教训和受害者访谈
5)补丁有效性审计
3、数据保护指标
1)特定数据类型和信息系统的关键性排名
2)与数据丢失、危害或损坏相关的事故、黑客攻击、盗窃或灾难的年损失预期
3)特定数据丢失的风险与某些类别的受监管信息以及补救优先级排序相关
4)数据与特定业务流程的风险映射,与销售点设备相关的风险将包含在金融支付系统的风险预测中。
5)对某些具有价值的数据资源机器传播媒介遭受攻击的可能性进行威胁评估
6)对可能意外或有意泄露敏感信息的业务流程中的特定部分进行漏洞评估
4、安全事件指标
1)检测到并阻止了入侵尝试数量
2)通过防止入侵节省的安全成本投资回报
5、机密数据扩散
应衡量机密数据的副本数量,以减少扩散。机密数据存储的位置越多,泄露的风险就越大。
第8章 数据集成和互操作
8.1 引言
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。数据集成是将数据整合成物理的或虚拟的一致格式。数据互操作是多个系统之间进行通信的能力。数据集成和 互操作的解决方案提供了大多数组织所依赖的基本数据管理职能:
1)数据迁移和转换
2)数据整合到数据中心或数据集市
3)将供应商的软件包集成到组织的应用系统框架中
4)在不同应用程序或组织之间数据共享
5)跨数据存储库和数据中心分发数据
6)数据归档
7)数据接口管理
8)获取和接收外部数据
9)结构化和非结构化数据集成
10)提供运营智能化和管理决策支持
数据集成和互操作依赖于数据管理的其他领域,如:
1)数据治理
治理转换规则和消息结构
2)数据架构
用于解决方案设计
3)数据安全
无论是数据持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护
4)元数据
用于知晓数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘
5)数据存储和操作
管理解决方案的物理实例化
6)数据建模和设计
用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构。
8.1.1 业务驱动因素
主要目的是为了对数据移动进行有效管理,另一个驱动因素是维护管理成本。
管理护具集成的复杂性以及相关成本是建立数据集成架构的原因
8.1.2 目标和原则
目标:
1)及时以数据消费者所需的格式提供数据
2)将数据物理地或虚拟地合并到数据中心
3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度
4)识别有意义的事件(机会和威胁),自动地出发警报并采取相应行动
5)支持商务智能、数据分析、主数据管理以及运营效率的提升
原则:
1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
2)平衡本地数据需求与企业数据需求,包括支撑与维护
3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
8.1.3 基本概念
1、抽取、转换、加载
(1)抽取
(2)转换
是让选定的数据与目标数据库的结构相兼容
1)格式变化
2)结构变化
3)语义转换
4)消除重复
5)重新排序
(3)加载
加载过程实在目标系统中物理存储或呈现转换结果。
(4)抽取、加载、转换(ELT)
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ELT
(5)映射
是转换的同义词,它既是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果。映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。
2、时延
(1)批处理
(2)变更数据捕获
1)源系统填入特定的数据元素
2)源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择
3)源系统复制已经变化的数据
(3)准实时和事件驱动
(4)异步
提供数据的系统在继续处理之前不会等待接收系统确认更新。不会阻塞源应用程序继续执行,也不会在任何目标应用程序不可用时导致源应用程序不可用。
(5)实时,同步
执行下一个活动或事务之前需等待接收来自其他应用程序或进程的确认。
(6)低延迟或流处理
低延迟旨在减少事件的响应时间。可能包括使用像固态硬盘的硬件解决方案或使用内存数据库的软件解决方案。
3、复制
监视数据集的更改日志。如果数据更改动作发生在多个副本站点时,那么数据复制解决方案不是最佳的选择。
4、归档
5、企业消息格式/规范格式
规范化的数据模型时组织或数据交换团队使用的通用模型,用于标准化数据共享的格式
6、交互模型
(1)点到点
1)影响处理
如果源系统是操作型的,那么提供数据的工作量可能会影响交易处理。
2)管理接口
点对点交互模型所需的接口数量接近系统数量的平方数。
3)潜在的不一致
当多个系统需要不同的版本或数据格式时,就会出现设计问题。
(2)中心辐射型
企业服务总线(EBS)是用于在多个系统之间接近实时共享数据的数据集成解决方案,其数据中心是一个虚拟概念,代表组织中数据共享的标准和规范格式。
(3)发布与订阅
发布和订阅模型涉及推送(发布)数据的系统和其他接受(订阅)数据的系统。
7、数据集成和互操作架构概念
(1)应用耦合
松耦合是一种优选的接口设计,其中在系统之间传送数据不需要等待响应。基于企业服务总线EBS的面向服务架构是松散耦合数据交互设计模式的一个示例。
(2)编排和流程控制
基本数据传送架构中经常被忽略的方面:
1)数据库活动日志
2)批量作业日志
3)警报
4)异常日志
5)作业依赖图,包含补救方案、标准回复
6)作业的时钟信息,如依赖作业的定时、期望的作业长度、计算(可用)的窗口时间
(3)企业应用集成
在企业应用集成模型(EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的API访问
(4)企业服务总线
是一个系统,充当系统之间的中介,在它们之间传送消息。应用程序可以通过ESB现有的功能封装发送和接收的消息或文件。
(5)面向服务的架构
SOA,通过在应用程序之间定义良好的服务调用,可以提供推送数据或更新数据的功能
(6)复杂事件处理
是一种跟踪和分析(处理)有关发生事件的信息流(数据流),并从中得出结论的方法。复杂事件(Complex Event Processing ,CEP)将多个来源的数据进行合并,通过识别出有意义的事件(如机会或威胁),为这些事件设置规则来指导事件处理及路由,进而预测行为或活动,并根据预测的结果自动触发实时相应,如推荐消费者购买产品。
(7)数据联邦和虚拟化
数据联邦提供访问各个独立数据存储库组合的权限
数据虚拟化使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看,
(8)数据即服务
软件即服务SaaS是一种交付和许可模式。数据即服务DAAS的一个定义是从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
(9)云化集成
云化集成,也称为集成平台即服务或IPaaS,是作为云服务交付的一种系统集成形式。
8、数据交换标准
交换模式定义了任何系统或组织交换数据所需的数据转换结构。数据需要映射到交换规范中。
国家信息交换模型(NIEM)是为美国政府之间交换文件和交易而开发的数据交换标准。使用XML来定义模式和元素的表述。
8.2 活动
8.2.1 规划和分析
1、定义数据集成和生命周期需求
2、执行数据探索
数据探索应该在设计之前进行,目标是为数据集成工作确定潜在的数据来源。数据探索还包括针对数据质量的高级别评估工作,以确定数据是否适合集成计划的目标。
3、记录数据血缘
数据是如何被组织获取或创建的,它在组织中是如何移动和变化以及如何被组织用于分析、决策或事件触发的。详细记录的数据血缘可以包括根据哪些规则改变数据及其改变的频率。
4、剖析数据
数据剖析有助于理解数据内容和结构。基本剖析包括:
1)数据结构中定义的数据格式和从实际数据中推断出来的格式
2)数据的数量,包括null值、空或默认数据的级别
3)数据值以及它们与定义的有效值集合的紧密联系
4)数据集内部的模式和关系,如相关字段和基数规则
5)与其他数据集的关系
5、收集业务规则
1)评估潜在的源数据集和目标数据集的数据
2)管理组织中的数据流
3)监控组织中的操作数据
4)指示何时自动触发事件和警报
8.2.2 设计数据集成解决方案
1、设计数据集成解决方案
(1)选择交互模型
(2)设计数据服务或交换模式
包括所涉及数据结构的清单(持久和可传递、现有和必需)、数据流的编排和频率指示、法规、安全问题和补救措施以及有关备份和恢复、可用性和数据存档和保留。
2、建模数据中心、接口、消息、数据服务
持久化的数据结构
主数据管理中心、数据仓库和数据集市、操作型数据存储库
临时数据结构
接口、消息布局、规范模型
3、映射数据源到目标
对于映射关系中的每个属性,映射规范如下:
1)指明源数据和目标数据的技术格式
2)指定源数据和目标数据之间所有中间暂存点所需的转换
3)描述最终或中间目标数据存储区中每个属性的填充方式
4)描述是否需要对数据值进行转换,如通过在表示适当目标值的表中查找源值
5)描述需要进行哪些计算
4、设计数据编排
数据集成解决方案中的数据流必须做好设计和记录。数据流程编排是从开始到结束的数据流模式,包括完成转换和事务所需的所有中间步骤。
8.2.3 开发数据集成解决方案
1、开发数据服务
开发服务来获取、转换和交付指定的数据,并且匹配所选的交互模型。
2、开发数据流编排
对集成ETL数据流通常会采用专用工具以特有的方式进行开发。对批量数据流将在一个调度器中开发(如CTRL-M)。互操作性需求可能包括开发数据存储之间的映射或协调点。
3、制定数据迁移方法
4、制定发布方式
5、开发复杂事件处理流
1)准备有关预测模型的个人、组织、产品或市场和迁移前的历史数据
2)处理实时数据流,充分填充预测模型、识别有意义的事件(机会或威胁)
3)根据预测执行触发的动作
6、维护数据集成和互操作的元数据
SOA注册中心提供了一个不断发展变化的受控信息目录:即访问和使用应用程序中数据和功能的可用服务。
8.2.4 实施和监测
应建立表示潜在问题的度量指标以及直接反馈问题的机制,尤其是当触发响应的复杂性和风险增加时,应建立对反馈问题的自动化处理和人工监控流程。
必须采用与最苛刻的目标应用程序或数据使用者相同的服务级别进行监视和服务。
8.3 工具
8.3.1 数据转换引擎/ETL工具
基本考虑应该包括是否需要运用批处理和实时功能,以及是否包括非结构化和结构化数据。目前最成熟的是用于结构化数据的批量处理工具。
8.3.2 数据虚拟化服务器
数据虚拟化服务器对数据进行虚拟抽取、转换和集成。数据虚拟化服务器可以将结构化数据和非结构化数据进行合并。数据仓库经常是数据虚拟化服务器的输入,但数据虚拟化服务器不会替代企业信息架构中的数据仓库。
8.3.3 企业服务总线
ESB既指软件体系结构模型,又指一种面向消息的中间件,用于在同一组织中的异构数据存储、应用程序和服务器之间实现近乎实时的消息传递。
ESB以异步格式使用,以实现数据的自由流动。
企业服务总线在各个环境中安装适配器或代理软件,在参与消息交换的各个系统上实现数据传入和传出的消息队列。
8.3.4 业务规则引擎
业务规则引擎中允许非技术用户管理软件的业务规则,因为业务规则引擎可以在不改变技术代码的情况下支持对预测模型的更改。
8.3.5 数据和流程建模工具
不仅用来设计目标结构,而且用来设计数据集成解决方案所需的中间数据结构。
8.3.6 数据剖析工具
包括对数据集的内容统计分析,以了解数据的格式、完整性、一致性、有效性和结构。
8.3.7 元数据存储库
元数据存储库包含有关组织中数据的信息,包括数据结构、内容以及用于管理数据的业务规则。
8.4 方法
基本目标是保持应用程序松散耦合,限制开发和管理接口的数量,使用中心辐射方法并创建标准规范的接口等。
8.5 实施指南
8.5.1 就绪评估/风险评估
基于多个系统之间实现集成的成本合理性
应保持在关注业务目标和需求上,包括确保每个项目中的参与者都有面向业务或应用程序的人员,而不仅仅是数据集成工具专家。
8.5.2 组织和文化变革
卓越中心团队,实现共享数据的一致标准
8.6 数据集成和互操作治理
8.6.1 数据共享协议
开发接口或以电子方式提供数据之前,应制定一份数据共享协议或谅解备忘录(MOU)。协议规定了交换数据的责任和可接受的使用用途,并由相关数据的业务数据主管批准。数据共享协议应指定预期的数据使用和访问、使用的限制以及预期的服务级别,包括所需的系统启动时间和响应时间。
8.6.2 数据集成和互操作与数据血缘
治理需要确保记录数据来源和数据移动的信息。数据共享协议可能规定了数据使用的限制。为了遵守这些限制,有必要知道数据在哪里移动和保留。
对数据流进行更改时需要数据血缘信息,必须将此信息作为元数据解决方案的关键部分进行管理。
8.6.3 度量指标
要衡量实现数据集成解决方案的规模和收益:包括可用性、数量、速度、成本和使用方面的指标。
1)数据可用性
请求数据的可获得性。
2)数据量和速度。包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。
3)解决方案成本和复杂度。包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。

第9章 文件和内容管理
9.1 引言
文件和内容管理是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
9.1.1 业务驱动因素
主要业务驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
提高效率是改进文件管理的驱动力。
9.1.2 目标和原则
目标:
1)确保能够高效地采集和使用非结构化的数据和信息
2)确保结构化和非结构化数据之间的整合能力
3)遵守法律义务并达到客户预期
原则:
1)组织中的每个人都应该在保护组织的未来方面发挥作用。
2)档案和内容处理方面的专家应充分参与制度和规划的制定
档案保存指导原则(GARP)
1)问责原则
2)完整原则
3)保护原则
4)遵从原则
5)可用原则
6)保留原则
7)处置原则
8)透明原则
9.1.3 基本概念
1、内容
内容是指文件、档案或网站内的数据和信息,通常基于文件所代表的概念以及文件的类型或状态来管理。
(1)内容管理
包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源。
(2)内容元数据
元数据对于管理非结构化的数据至关重要,无论是传统上认为的内容和文件,还是现在理解的“大数据”。如果没有元数据,就无法对内容进行编目和组织。非结构化数据内容的元数据基于:
1)格式
2)可搜索性
3)自我描述性
4)既有模式
5)内容主题
6)需求
(3)内容建模
内容建模是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程。属性描述关于该内容的一些特定的和可区分的信息;数据类型限制了属性可以包含的数据的类型,从而使验证和处理成为可能。元数据管理和数据建模技术用于开发内容模型。内容建模有两个层次:
第一是信息产品级别,产出一个像网站一样的实际可交付成果
第二是组件级别,进一步详细说明了构成信息产品模型的元素,模型中的详细程度取决于重用和构造所需的粒度。
(4)内容分发方法
1)推式
在推式系统中,用户按照预先确定的时间表选择传送给他们的内容类型。简易信息聚合RSS。
2)拉式
用户通过互联网获取内容
3)交互式
第三方电子销售点EPOS的应用或面向客户的网站,需要在企业应用之间交换大量的实时数据。应用程序之间共享数据的选项,包括企业应用程序集成(EAI)、更改数据采集、数据集成和EII
2、受控词表
是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表。系统地组织文件、档案和内容离不开受控词表。
(1)词汇表管理
提高信息存储和检索系统、web导航系统和其他环境的有效性手段,这些环境通过使用语言的某种描述来识别和定位所需的内容。控制词汇表的主要目的是实现采用一致并便于检索的方式描述内容对象
针对任何给定的词汇进行定义、寻源、导入和维护的过程。
(2)词汇表视图和微控制词汇表
词汇表视图是受控词表的子集,涵盖了受控词表领域内有限范围的主题。
微控制词汇表是包含一般词汇表中不包含的高度专业化术语的词汇表。
(3)术语和选择列表
术语列表仅仅就是一个列表
选择列表通常隐藏在应用程序中
(4)术语管理
术语管理包括在受控词汇表中建立术语之间的关系,关系类型可以分为以下3种:
1)等价术语关系
术语映射功能
2)层次化关系
广义到狭义或整体到部分
3)关联关系
相关联但非层次化
(5)同义词环和规范表
同义词环是指一组含义大致相同的术语。允许搜索其中一个术语的用户去访问与该词环其他术语相同的内容。目的是用于检索而非索引。
规范表是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索。其术语处理方法和同义词环不同
(6)分类法
是指任何分类或受控词表的总称。最著名的是林奈开发的生物分类系统。分类法有不同的结构:
1)扁平分类法
2)层次分类法
地理信息,从大陆到街道
3)多重层级结构
它是具有多个节点关系规则的树状结构
4)面分类法
它指的是每个节点与中心节点相关联,其形状看起来像星型图。
5)网状分类法。
(7)分类方案和打标签
分类方案是代表受控词表的代码
大众分类法是通过社交标签对在线内容术语和名称分类的方案
(8)主题词表
又称叙词表,是一种用于内容检索的受控词表。
(9)本体
代表一套概念和它们在某个领域内概念之间的关联。
分类法和本体的两个主要区别:
1)分类法为给定的概念区域提供数据内容分类
2)在分类法或数据模型中,定义是已知的,别无其他,称为封闭世界假设。在本体中,基于现存的关系可以推断出可能的关系。因此未明确声明的内容也可能是真的,称之为开放世界假设。
避免落入导致歧义和混淆的常见陷阱,这类情况主要有:
1)无法区分实例关系和子类关系
2)将事件建模为关系
3)术语缺乏清晰度和独特性
4)将角色建模为类
5)无法重复使用
6)混淆建模语言的语义和概念
7)使用基于网络的、跨平台的工具(如OOPS)进行本体验证有助于陷阱的诊断和修复。
3、文件和档案
文件是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决策的日志等的电子或纸质对象。
只有部分文件才能称为档案。档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动和法规遵从的证据。
(1)文件管理
文件管理包括在文件和档案的整个生命周期中控制和组织它们的流程、方法和技术。它包括电子和纸质文件的存储、编目和控制。
1)编目
2)制度
3)分类
4)存储
5)检索和流转
6)保存和处置
(2)档案管理
是文件管理的一部分,管理档案有一些特殊的要求,包括整个档案的生命周期:从档案的创建或接收到处理、分发、组织和检索,再到处置。
精心管理的档案具有以下特点:
1)内容
2)背景
3)及时性
4)永久性
5)结构
(3)数字资产管理
4、数据地图
是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息。
5、电子取证
早期案例评估
早期数据评估
6、信息架构
1)受控词表
2)分类法和本体
3)元数据映射
4)搜索功能规格
5)用例
6)用户流
7、搜索引擎
是一种根据属于搜索信息并检索内容中包含这些术语网站的软件。
包含几个组件:
适当的搜索引擎软件、漫游网络的爬虫、将找到内容的统一资源定位符(URL)保留起来的存储、索引遇到的关键字和文本以及排名规则等。
8、语义模型
是一种知识建模,描述一系列概念网络以及它们之间的关系。
包含语义对象和语义约束。
9、语义搜索
侧重于语义和语境而非预先设定的关键字。
10、非结构化数据
11、工作流
内容管理系统(CMS)实现自动化
9.2 活动
9.2.1 规划生命周期的管理
文件生命周期的规划:从文件的创建或接收文件后的分发、存储、检索归档和潜在的销毁。规划包括开发分类/索引系统和分类法,以实现文件的存储和检索。
1、规划档案管理
2、制定内容策略
9.2.2 创建内容处理制度
文件管理制度
1)审计的范围和合理性
2)重要档案的鉴定和保护
3)保留档案的目的和保管期限表
4)如何响应信息保留命令,即针对已过保留期的诉讼信息要求
5)本地和异地存储档案的要求
6)硬盘驱动器和共享网络驱动器的使用和维护
7)对电子邮件管理,从内容管理的角度进行处理
8)合理的档案销毁方法,如预先批准的供应商和销毁证明的收据
(1)社交媒体制度
(2)设备访问制度
(3)处理敏感数据
(4)应对诉讼
9.2.3 定义内容信息架构
使用基于内容的索引或元数据搜索
基于用户的需求和偏好,索引的设计侧重于索引的关键或属性的决策选项。
确保构建受控词汇表、索引、信息检索分类方案工作的互相协调。
9.2.4 实施的生命周期管理
1、获取档案和内容
2、管理版本的控制
1)正式控制
2)修订控制
3)托管控制
3、备份和恢复
4、管理保管和处置
没有优先删除无附加值的信息是因为:
1)制度不适用
2)对某一个人来说是无附加值的信息,但对另一个人来说却是有价值的信息
3)无法预见当前的无附加值实体和/或电子档案未来可能的需求
4)对档案管理的不认可
5)无法决定删除哪些档案
6)做决定与移除实体和电子档案的感知成本
7)电子空间很便宜,购买更多的空间比归档和移除过程更容易
5、审计文件和档案
1)定义组织驱动因素
2)一旦确定检查测量的内容和要使用的工具,就开始收集相关数据
3)报告结果
4)制定下一步的行动计划和时间表
9.2.5 发布和分发内容
1、开放访问、搜索和检索
2、通过可接受的渠道分发
9.3 工具
9.3.1 企业内容管理系统
1、文件管理
基于不同规则的工作流
1)手动工作流
2)基于规则的工作流
3)动态规则
允许基于内容的不同工作流。
(1)数字资产管理
数字资产的编目、存储和检索
(2)图像处理系统
用于采集、转换和管理纸质件的影像和电子文件,采集使用的技术包括扫描、光识别和智能字符识别或表单处理。
光学字符识别OCR
智能字符识别ICR是一种更先进的可以处理打印和草书手写的文本
(3)档案管理系统
可能要有自动保管和处理、电子取证支持和长期归档的能力。支持重要的档案程序,以保留关键业务档案,可以与文件管理系统集成。
2、内容管理系统
content management system,CMS .用于收集、组织、索引和检索内容,将内容存储为组件或整个文件,同时保持组件之间的链接。还可以提供修改文档内容的控件。
3、内容和文件工作流
工作流工具支持业务流程、路由内容和文件、指派工作任务、跟踪状态以及创建审计跟踪。在内容发布之前,工作流应支持对内容的审核和批准。
9.3.2 协作工具
可用于收集、存储、工作流程和管理与团队活动相关的文件。社交网络可以使个人和团队在内部共享文件和内容,并通过博客、wikis、RSS和标签与外部团队进行交互。
9.3.3 受控词汇表和元数据工具
1)在组织中被用作数据指南的数据模型
2)文件管理系统和办公软件
3)元数据库、术语表或目录
4)分类法和分类法之间的交叉参考模式
5)集合索引、文件系统、民意调查、档案、位置或异地控股
6)搜索引擎
7)非结构化数据的BI工具
8)企业和部门同义词表
9)已发布的报告库、内容和参考书目及其目录。
9.3.4 标准标记和交换格式
1、可扩展标示语言(XML)
1)XML提供了将结构化数据整合到具有非结构化数据的关系型数据库中的功能
2)XML可以将结构化数据与文件、报表、电子邮件、图像、图形、音频和视频文件中的非机构化数据集成在一起。
3)XML还可以用于建立企业或公司门户网站(B2B、B2C),为用户提供了一个可以连接到各种内容的站点。
4)XML可以识别和标记非结构化数据/内容,以便计算机应用程序可以理解并处理它们
2、基于JavaScript的轻量级数据交换格式JSON
是一种开放的、轻量级的数据交换标准格式。它的文本格式独立于语言,易于解析,但仍是使用C语言家族的习惯方式。JSON有两个结构:一是无序“名称/值 对”集合,也被称为对象;二是值的有序集合,也被称为数组。
3、资源描述框架RDF和相关的万维网联盟W3C规范
RDF——主谓宾
网络本体语言(W3C Web Ontology Language,OWL)是RDF的词汇表扩展
简单知识组织系统(Simple Knowledge Organization System,SKOS)是一个RDF词汇表
4、Schema.org
提供了一组用于页面标记的共享词汇表或模式,以便主流的搜索引擎可以理解它们。侧重于网页上的文字含义以及术语和关键词。
词汇表集合还可用于结构化数据的互操作(如与JSON)
9.3.5 电子取证技术
电子取证技术提供了许多功能和技术,如早期案例评估、收集、辨认、保全、处理、光学字符识别(OCR)、剔除、相似性分析和电子邮件线程分析。技术辅助审查(TAR)是一个工作流或过程。在此过程中,团队可以审查选定的文件并标记相关与否。
9.4 方法
9.4.1 诉讼应诉手册
指引手册汇编内容包括:
1)给每个部门建立制度和过程清单
2)为各主题起草制度,如诉讼保留、文件保管、归档和备份
3)评估IT工具的能力,如电子取证索引、搜索和搜集、数据隔离和保护工具以及非结构化ESI源/系统
4)识别和分析相关的法律问题
5)制定沟通和培训计划,根据预期对员工进行培训
6)确定可以提前准备的材料,以便根据法律案例进行裁减
7)在需要外部服务的情况下分析供应商服务
8)制定如何处理通知的流程并保持指引手册的最新状态
9.4.2 诉讼应诉数据映射
数据映射是一个信息系统的目录,描述了系统以及系统的用途、包含的信息、保留策略和其他特征。从目录中通常会识别档案系统、源应用系统、存档、灾难恢复副本或备份以及用于每个系统的介质。
9.5 实施指南
9.5.1 就绪评估/风险评估
ECM就绪评估的目的是确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。数据管理成熟度评估模型可以在此过程中提供帮助。
具体的ECM关键成功因素包括对现有内容的审核和分类、合适的信息体系结构、内容生命周期的支持、适当元数据标签的定义以及在ECM解决方案中自定义的功能的能力。
1、档案管理成熟度
ARMA的公认档案保管原则:
1)1级,低于标准的
2)2级,发展中的,认识到信息治理和档案保管可能对组织产生的影响
3)3级,基本的,必须满足法律法规的最低要求
4)4级,积极的,已经建立了一个以持续改进为重点的主动式信息治理计划
5)5级,完成变革的。信息治理已经融入企业的基础架构和业务流程中。
2、电子取证评估
9.5.2 组织和文化变革
理想的解决方案是集中和安全管理的单一存储库,在整个企业中实施明确定义的策略和流程。
9.6 文件和内容治理
9.6.1 信息治理架构
驱动因素包括:
1)法律和法规遵从
2)档案的合理处置
3)对电子取证的前瞻性准备
4)敏感信息的安全
5)电子邮件和大数据等风险领域的管理
GARP原则:
1)为问责制度提供高层支持
2)教育员工了解信息治理制度
3)根据正确的档案代码或分类类目对信息进行分类
4)确保信息的真实性和完整性
5)确保官方档案是电子档案,除非另有规定
6)制定制度,使业务系统和第三方信息与信息治理标准保持一致
7)存储、管理、访问、监控和审核已批准的企业存储库以及档案和内容系统
8)保护机密或个人身份信息
9)控制不必要的信息增长
10)在信息的生命周期结束时对其进行处置
11)遵守信息的请求(如取证、传票等)
12)持续改进
信息治理参考模型(IRGM)
展示了信息治理与其他组织功能的关系。外环包括了实施信息管理过程中涉及的制度、标准、流程、工具和基础架构等方面,中心展示了一张生命周期图。
9.6.2 信息的激增
一般来说,非结构化数据的增长速度远远快于结构化数据,这增加了治理的难度。
9.6.3 管理高质量的内容
1)生产者
2)消费者
3)时间
4)格式
5)分发
9.6.4 度量指标
1、档案管理
衡量档案管理实施成功的标准:
1)每个用户有百分之几的文件和电子邮件被认定为是公司的档案
2)被认定为公司档案中有百分之几得到了控制
3)在所有存储的档案中有百分之几的档案应用了适当的保管规则
2、电子取证
电子取证常见的一个KPI指标是成本降低,另一个KPI指标是对比被动收集信息的方式,提前收集信息时提高的效率。还有一个是组织可以快速地进行法律保留通知的过程
主要集中在的7个方面:活动、监护人、系统、介质、状态、格式和质量保证。
3、企业内容管理
指定一些与业务解决方案的价值相关的KPI,如:
1)财务KPI可以包括ECM系统的成本、与物理存储相关的成本降低以及运营成本下降的百分比
2)客户KPI可以包括首次与客户联系时就解决了他的问题的比例和客户投诉的数量
3)代表更有效和更高效的内部业务流程的KPI可以包括在使用工作流程和过程自动化后。文书工作减少的百分比以及错误减少的百分比
4)培训KPI可包括管理和非管理培训课程的数量
5)风险缓解KPI可以包括取证成本的降低以及追踪电子取证请求的审计跟踪数量。
规划指标
ECM项目数、采用率和用户满意度
运营指标
停机时间、用户数量
特定ECM指标
存储利用率(如使用企业内容管理前后的存储容量对比)
检索性能
信息检索能力
查准率
检索到的文件与实际相关的比率
查全率
检索到的涉及所有相关文档的比率
第10章 参考数据和主数据
10.1 引言
10.1.1 业务驱动因素
1)满足组织数据需求
2)管理数据质量
3)管理数据集成的成本
4)降低风险
集中管理的参考数据会使组织获得如下好处:
1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本
2)提升参考数据的质量
10.1.2 目标和原则
目标:
1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据
3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及其复杂性。
原则:
1)共享数据
2)所有权
3)质量
4)管理职责
5)控制变更
①在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解。改变数据值的匹配规则,应该在有关监督下谨慎地运用。任何合并或拆分参考数据和主数据的操作都应该是可追溯的。
②对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准
6)权限
10.1.3 基本概念
1、主数据和参考数据的区别
奇泽姆六层数据分类法
元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据
主数据定义为参考数据、企业结构数据和交易结构数据的聚合
1)参考数据
代码表和描述表,仅用于描述组织中的其他数据,或者仅用于将数据库中的数据与组织之外的信息联系起来。
2)企业结构数据
会计科目表
3)交易结构数据
客户标识符
主数据是以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息。
主数据面临的主要挑战是实体解析,也称身份管理,它是识别和管理来自不同系统和流程的数据之间的关联的过程。
参考数据不易变化,它的数据集通常会比交易数据集或主数据集小、复杂程度低,拥有的列和行也更少。
参考数据和主数据的管理重点不同:
1)参考数据管理(RDM)。需要对定义的域值及其定义进行控制。参考数据管理的目标是确保组织能够访问每个概念的一整套准确且最新的值。
2)主数据管理(MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。目标包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。
2、参考数据
是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。
参考数据常用的存储技术包括:
1)关系数据库中的代码表
2)参考数据管理系统
3)用特定于对象属性的元数据指定允许值,重点在于应用程序的调用接口或用户界面访问。
(1)参考数据结构
1)列表
由代码值和代码描述组成的列表。
2)交叉参考数据列表
不同的应用程序可以使用不同的代码集表示相同的概念。
3)分类法
根据不同级别的差异性获取信息
利用内容分类和多方位的导航以支持商务智能
也可以维护数据层次信息
4)本体
将用于管理网站内容的本体作为参考数据的一部分。
(2)专有或内部参考数据
创建参考数据来支持内部流程和应用
(3)行业参考数据
用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集
(4)地理或地理统计参考数据
(5)计算参考数据
如外汇依赖于及时更新的交换汇率值表
(6)标准参考数据集的元数据
3、主数据
主数据是有关业务实体的数据,这些实体为业务交易和分析提供了语境信息。
一般组织的主数据包括下列事物的数据:
1)参与方
2)产品和服务
3)财务体系
4)位置信息
(1)记录系统,参考系统
记录系统是一个权威的系统,它通过使用一套定义好的规则和预期来创建、获取并维护数据。
参考系统也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统。
主数据管理应用(MDM)、数据共享中心(DSH)、数据仓库DW通常会被用作参考系统
(2)可信来源,黄金记录
基于自动规则和数据内容的手动管理的结合,可信来源是事实的最佳版本
可信来源也被称为单一视图、360度视图
在可信来源中,表示一个实体、实例的最准确数据的记录可以被称为黄金记录
(3)主数据管理
一个技术支持的领域,在这个过程中业务和技术协同工作,以确保企业官方共享主数据资产的统一性、准确性、管理性、语义一致性和问责性。主数据是由标识符和扩展属性组成的一个一致且统一的集合,它描述了企业的核心实体,包括客户、潜在客户、企业公民、供应商、位置、层次结构和会计科目等。
评估一个组织的主数据管理情况,需要识别以下几点:
1)哪些角色、组织、地点和事物被反复引用
2)哪些数据被用来描述人、组织、地点和事物。
3)数据是如何被定义和设计的,以及数据粒度细化程度如何。
4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问
5)数据通过组织内的系统时是如何变化的
6)谁使用这些数据,为了什么目的
7)用什么标准来衡量数据及其来源的质量和可靠性
在一个域内规划主数据管理包括以下几个基本步骤:
1)识别能提供主数据实体全面视图的候选数据源
2)为精确匹配和合并实体、实例制定规则
3)建立识别和恢复未恰当匹配或合并的数据的方法
4)建立将可信数据分发到整个企业的系统中的方法
全生命周期中的关键活动包括:
1)建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理
2)识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合
3)协调和整合不同来源的数据,以提供主记录或事实的最佳版本。
4)识别出那些未被正确匹配或合并的实例,确保它们得到修正,并关联到正确的标识符
5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问
6)在组织内强制使用主数据
(4)主数据管理的关键处理步骤
包括数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、管理和共享
1)数据模型管理
主数据工作揭示了清晰一致的逻辑数据定义的重要性。这些模型应该能够帮助组织克服”系统发言“的状况。
2)数据采集
①接收并应对新的数据源采集的要求
②使用数据清理和数据分析工具进行快速、即时、匹配或高级的数据质量评估
③评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析
④试点数据采集及其对匹配规则的影响
⑤为新数据源确定数据质量指标
⑥确定由谁负责监控和维护新数据源数据的质量
⑦完成与整体数据管理环境的集成
3)数据验证、标准化和数据丰富
①验证
识别那些被证明是错误的或可能是不正确或默认的数据
②标准化
确保数据内容符合标准参考数据值、标准的格式或字段
③数据丰富
添加可以改进实体解析服务的属性。
4)实体解析和标识符管理
实体解析时确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程。
实体解析包括一系列活动(实例提取、实例准备、实例解析、身份管理、关系分析),这些活动能够使实体、实例的身份以及实体、实例之间的关系持续地被管理。
①匹配
a)假阳性
不代表同一实体的两个对象被关联在一个标识符下,假阳性导致一个标识符指向多个现实世界的实体实例
b)假阴性
代表同一实体的两个对象没有被关联在一个标识符下。假阴性导致多个标识符指向同一现实世界的实体,但一个实体本应该只有一个标识符
相似性分析或匹配,通常基于相应属性值之间的加权近似匹配对两个记录之间的相似程度进行评分。
a)确定式算法
解析和标准化依靠确定的模式和规则,按照指定的权重计算相似度的分值
b)或然式算法
依赖于训练数据的采集能力,训练是需要观察全部记录的一个子集的预期结果,再进行匹配器调优,实现匹配器基于统计结果的自我调整。
②身份解析
③匹配流程/协调类型
a)重复表示匹配规则
重点关注一组特定的数据元素,这些元素能够唯一地标识实体,识别合并机会而不采取自动合并操作。
b)匹配链接规则
标识可能与主记录相关的记录,只建立交叉引用关系而不更新这些被交叉引用的记录的内容;更容易实现也容易撤销
c)匹配合并规则
重点关注记录的匹配,并将这些记录中的数据合并为单一、统一、协调且全面的记录。
④主数据ID管理
管理主数据涉及管理标识符,在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(Global ID)、交叉引用(X-Ref)信息
全局标识符是主数据管理解决方案分配和维护的唯一标识符,它会被附加到协调记录中,其目的是能够唯一地标识一个实体实例。
全局标识符(Global ID)都应该只由一个授权解决方案生成,以避免出现重复值的风险。
全局标识符需要解决的难题是,在发生反合并/再合并的情况下如何维护正确的全局标识符。
交叉引用管理(X-Ref Management)应该包括维护此类映射历史的功能以支持匹配率指标,并开放查找服务以支持数据整合
⑤从属关系管理
a)隶属关系
b)父子关系
c)数据共享和管理责任
(5)参与方主数据
参与方主数据是关于个人、组织以及他们在业务关系中所扮演的角色的数据。
面临的挑战:
1)个人和组织扮演的角色和他们之间关系的复杂性
2)唯一标识的困难
3)数据源的数量和它们之间的差异
4)多个移动通信信道和社交渠道
5)数据的重要性
6)客户想要怎样参与的期望
(6)财务主数据
包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。ERP系统充当财务主数据的中心枢纽。
(7)法律主数据
包括关于合同、法规和其他法律事务的数据。允许对提供相同产品或服务的不同实体的合同进行分析以便更好地协商谈判,或将这些合同合并到主协议中。
(8)产品主数据
专注于组织的内部产品和服务,或全行业的产品和服务。不同类型的产品主数据解决方案支持不同的业务功能。
1)产品生命周期管理(PLM)系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。组织通过实施产品生命周期管理系统以加快产品的上市。
2)产品数据管理(PDM)系统通过捕获和实现对设计文档(如CAD图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息的安全共享,以支持工程和制造功能。产品数据管理功能可以通过专门的系统或ERP系统实现。
3)企业资源规划(ERP)系统的产品数据主要关注库存单位,以支持从订单录入到库存阶段,可以通过多种技术识别各种独立的产品。
4)制造执行系统(MES)中的产品数据主要关注原材料库存、半成品和成品,其中成品与可以通过ERP系统来存储和订购的产品相关联。
5)客户关系管理(CRM)系统支持营销、销售和交互支持,系统中的产品数据可以包括产品系列和品牌、销售代表协会、客户区域管理以及营销活动等。
(9)位置主数据
提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。
1)位置参考数据通常包括行政区域数据
2)位置主数据包括业务方地址和位置
(10)行业主数据——参考目录
参考目录是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础。虽然参考目录是由外部组织创建的,但管理并协调妥善的信息版本是在组织自己的系统中进行维护的。
参考目录可以通过以下方式帮助用户更好地使用主数据:
1)为新纪录的匹配和连接提供起始点
2)提供在记录创建时可能较难获得的其他数据元素
3)当组织的记录与参考目录匹配、协调时,可信记录将偏离参考目录,并且可追溯到其他源记录,贡献属性和转换规则。
4、数据共享架构
1)注册表
是指向多种记录系统中主数据记录的索引。记录系统管理应用程序本地的主数据,可以根据主索引访问主数据
2)交易中心
各应用程序与中心系统交互,实现对主数据的访问和更新。
3)混合模式
混合模式是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享。
10.2 活动
10.2.1 主数据管理活动
1、识别驱动因素和需求
驱动因素包括改善客户服务和运营效率,以及减少与隐私和法律法规有关的风险
障碍包括系统之间在数据含义和结构上的差异。
2、评估和评价数据源
主数据管理的工作结果之一可能是通过评估现有数据的质量来改进元数据。
评估数据源的目标之一是根据组成元数据的属性来了解数据的完整性。
3、定义架构方法
主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别是数据的血缘和波动性以及高延迟或低延迟的影响。
4、建模主数据
5、定义管理职责和维护过程
6、建立治理制度,推动主数据使用
10.2.2 参考数据管理活动
1、定义驱动因素和需求
驱动因素是运行效率和更高的数据质量
2、评估数据源
3、定义架构方法
4、建模参考数据
5、定义管理职责和维护流程
6、建立参考数据治理制度
10.3 工具和方法
数据整合工具、数据修复工具、操作型数据存储(ODS)、数据共享中心(DSH)、专门的主数据管理应用来实现。
10.4 实施指南
10.4.1 遵循主数据架构
整合方法应考虑企业组织架构、记录系统的数量、数据治理实施、数据访问延迟的重要性以及消费系统和应用程序的数量。
10.4.2 监测数据流动(实现以下目的:
1)显示数据如何在整个组织中共享和使用
2)在管理系统和应用程序中识别数据的血缘关系
3)辅助进行问题根本原因的分析
4)展示数据整合和消费整合技术的有效性
5)通过数据消费展示源系统的数据值延迟
6)确定在集成组件中执行的业务规则和转换的有效性。
10.4.3 管理参考数据变更
数据修改的类型包括:
1)对外部参考数据集的行级变更
2)外部参考数据集的结构变化
3)对内部参考数据集的行级变更
4)内部参考数据集的结构变化
5)创建新的参考数据集
10.4.4 数据共享协议
为确保恰当的访问和使用,应建立共享协议,规定哪些数据可以共享,以及在何种条件下可以共享。
10.4.5 组织和文化变革
10.5 参考数据和主数据治理
10.5.1 治理过程决定事项
1)要整合的数据源
2)要落实的数据质量规则
3)遵守使用规则的条件
4)要监控的行动和监控频率
5)优先级和数据工作响应等级
6)如何展示信息以满足利益相关方的需求
7)参考数据管理和主数据管理部署的标准授权扎口和预期。
10.5.2 度量指标
1)数据质量和遵从性
指标应该说明主题域实体或相关属性的置信度(百分比),以及它在整个组织中符合实际需求的使用价值。
2)数据变更活动
指标展示数据值的变化率
3)数据获取和消费
指标应该显示和追踪哪些系统在贡献数据,哪些业务区域在共享环境中订阅数据
4)服务水平协议(SLA)
5)数据管理专员覆盖率
指标应该关注对数据内容负责的个人或团队,并展示覆盖率的评估频率
6)拥有总成本
成本可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等
这一指标的有效性是基于其在整个组织中的持续应用。
7)数据共享量和使用情况
指标展示数据共享环境中流入和流出数据的定义,纳入和订阅的数量和速率
第11章 数据仓库和商务智能
11.1 引言
11.1.1 业务驱动因素
数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动。
11.1.2 目标和原则
目标:
1)支持商务智能活动
2)赋能商业分析和高效决策
3)基于数据洞察寻找创新方法
原则:
1)聚焦业务目标
2)以终为始
3)全局性的思考和设计,局部性的行动和建设
4)总结并持续优化,而不是一开始就这样做
5)提升透明度和自助服务
6)与数据仓库一起建立元数据
7)协同
8)不要千篇一律
11.1.3 基本概念
1、商务智能
第一层含义:商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。
第二层含义:商务智能指的是支持这类数据分析活动的技术集合
2、数据仓库
一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序
广义上来说,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提取操作。
3、数据仓库建设
指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。
建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。
4、数据仓库建设的方法
1)数据仓库存储的数据来自其他系统
2)存储行为包括以提升数据价值的方式整合数据
3)数据仓库便于数据被访问和分析使用
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析
5、企业信息工厂(Corporate Information Factory)
1)面向主题的
2)整合的
3)随时间变化的
4)稳定的
5)聚合数据和明细数据
6)历史的
CIF的组成部分包括:
1)应用程序
2)数据暂存区
3)集成和转换
4)操作型数据存储(ODS)
5)数据集市
6)操作型数据集市(OpDM)
7)数据仓库
8)运营报告
9)参考数据、主数据和外部数据
6、多维数据仓库
1)业务源系统
2)数据暂存区域
3)数据展示区域
4)数据访问工具
7、数据仓库架构组件
(1)源系统
(2)数据集成ETL
(3)数据存储区域
1)暂存区
2)参考数据和主数据一致性维度
存储在单独的存储库中
3)中央数据仓库
完成转换和准备流程后,数据仓库中的数据通常会保留在中央或原子层中。该区域的数据结构是根据性能需求和使用模式来设计和开发的。数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系
②创建索引和外检以支持维度表
③用于检测、维护和存储历史记录的变更数据捕获
4)操作型数据存储(ODS)
中央持久存储的一个解决方案,支持较低的延迟
5)数据集市
用于支持数据仓库环境的展示层,还用于呈现数据仓库的部门级或功能级子集,以便对历史信息进行集成报表、查询和分析。
6)数据立方体
存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的混合型存储结构的,它们的名称与底层数据库类型有关。
8、加载处理的方式
(1)历史数据
数据仓库的一个优势是它可以捕获所存储数据的详细历史记录。有多种不同的方法来捕捉这些详细信息,想要获取历史数据信息,组织应该根据需求进行针对性设计。
另一种方法称作DataVault,作为数据暂存处理的一部分,同样进行数据清洗和标准化,历史数据以规范化的原子结构存储,每个维度定义了代理键、主键、备用键。
(2)批量变更数据捕获
(3)准实时和实施数据加载
准实时的两个关键设计概念是变更隔离和批处理的替代方案
批处理的替代方案三种:
1)涓流式加载(源端累积)
是以更频繁的节奏或者以阈值的方式进行批量加载,允许白天就做批处理操作
2)消息传送(总线累积)
极小的数据报发布到消息总线时,实时或近实时的消息交互
3)流式传送(目标端累积)
用缓冲区或队列方式收集数据并按顺序处理。
11.2 活动
11.2.1 理解需求
11.2.2 定义和维护数据仓库/商务智能架构
1、确定数据仓库/商务智能技术架构
最佳架构将提供一种能够以原子化的数据处理方式支撑交易级和运营级报表需求的机制,这种机制可以避免数据仓库存贮每一笔交易细节。
2、确定数据仓库/商务智能管理流程
标准的发布计划
有效的发布流程
11.2.3 开发数据仓库和数据集市
三条并存的构建轨迹
1)数据
2)技术
3)商务智能工具
1、将源映射到目标
源到目标的映射为从各个源系统到目标系统的实体和数据元素建立转换规则。
最困难的是确定多个系统中数据元素之间的链接有效性或等效性,考虑将多个计费或订单管理系统的数据合并到一个数据仓库中的工作,可能包含等效数据的表和字段用的不是相同的名字或结构。
2、修正和转换数据
强化数据修正或清理活动的执行标准,并纠正和增强各个数据元素的域值。
乐观加载策略
可以包括创建维度记录以容纳事实数据,这样的过程必须考虑如何更新和处理这些记录
悲观加载策略
应该考虑一个事实数据的回收区域,并在以后重新加载。实际处理的时候应考虑首先加载回收区的记录在处理新内容。
11.2.4 加载数据仓库
确定数据加载方法考虑的关键因素是:
数据仓库和数据集市所需的延迟要求
源可用性
批处理窗口或上载间隔
目标数据库及时间帧的一致性
变更数据捕获的过程检测源系统中的数据变更
11.2.5 实施商务智能产品组合
1、根据需要给用户分组
2、将工具与用户要求相匹配
11.2.6 维护数据产品
1、发布管理
2、管理数据产品开发生命周期
3、监控和调优加载过程
性能瓶颈和性能的依赖路径
数据库调优技术、分区、备份调优和恢复策略调整、数据归档是一个难题
4、监控和调优商务智能活动和性能
最佳实践是定义和显示一组面向客户满意度的指标,如平均查询响应时间,每天、每周或每月的用户数就是有用的指标。
定期审查使用情况的统计数据和使用方法非常重要
透明度和可见性是推动数据仓库/商务智能的关键原则
11.3 工具
11.3.1 元数据存储库
1、数据字典和术语
2、数据和数据模型的血缘关系
1)调查数据问题的根本原因
2)对系统变更或确定数据的可靠性
3)根据数据来源确定数据的可靠性
11.3.2 数据集成工具
1)过程审计、控制、重启和调度
2)在执行时有选择地提取数据元素并将其传递给下游系统进行审计的能力
3)控制哪些操作可以执行或不能执行,并重新启动那些失败或中止的进程。
11.3.3 商务智能工具的类型
1、运营报表
指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。
2、业务绩效管理(BPM)
绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。
包括对组织目标一致性的指标的正式评估,此评估通常发生在高管层面。使用战略上午智能工具支持企业的长期目标。
3、运营分析应用(描述性的自助分析)
在线分析处理(OLAP)是一种多维分析查询提供快速性能的方法。
传统的应用程序是财务分析,分析师希望反复遍历已知的层次结构来分析数据。
构建数据立方体以提供所需的功能需求,可能需要将较大的维度拆分为单独的数据立方体,以适应存储、加载或计算要求。
在数据立方体中配置基于角色的安全性或多语言文本,可能需要额外的维度、附加功能、计算或创建单独的数据立方体结构。
1)切片
多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值
2)切块
切块操作是数据立方体上两个以上维度的切片
3)向下/向上钻取
在不同数据级别之间导航
4)向上卷积
需要先定义计算关系或公式
5)透视
更改页面的展示维度
三种经典的OLAP实现方法如下:
1)关系型联机分析处理(ROLAP)
通过在关系数据库(RDBMS)的二维表中使用多维技术来支持OLAP。常用星型架构
2)多维矩阵型联机分析处理(MOLAP)
MOLAP通过使用专门的多维数据库技术支持OLAP
3)混合型联机分析处理(HOLAP)
它是ROLAP和MOLAP的结合。允许部分数据以MOLAP形式存储,另一部分存储在ROLAP中
11.4 方法
11.4.1 驱动需求的原型
对源数据的状态评估有助于对集成可行性和工作范围进行更准确的前期估算。
11.4.2 自助式商务智能
包括消息传递、警报、查看预定的生产报表、与分析报表交互、开发即席查询报表,当然还有仪表盘和计分卡功能。报表可以按标准计划推送到门户。
11.4.3 可查询的审计数据
11.5 实施指南
11.5.1 就绪评估/风险评估
数据仓库应该能够实现以下几点:
1)明确数据敏感性和安全性约束
2)选择工具
3)保障资源安全
4)创建抽取过程以评估和接收源数据
11.5.2 版本路线图
建议将数据仓库总线矩阵作为一个沟通和推广的工具在逐步迭代的过程中使用。
11.5.3 配置管理
与发布路线图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产,还通过数据库级别的发布来标记模型,并以自动化的方式将代码库与该标记联系起来,以便在整个环境中协调手动的编码、生成的程序和语义层的内容并进行版本控制。
11.5.4 组织与文化变革
1)业务倡议
2)业务目标和范围
3)业务资源
4)业务准备情况
5)愿景一致
11.6 数据仓库/商务智能治理
11.6.1 业务接受度
业务对数据的接受程度,包括可以理解的数据、具有可验证的质量,以及具有可证明的数据血缘关系
1)概念数据模型
2)数据质量反馈循环
3)端到端元数据
4)端到端可验证数据血缘
11.6.2 客户/用户满意度
11.6.3 服务水平协议
11.6.4 报表策略
包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时的信息。策略必须解决如下问题:
1)安全访问
2)描述用户交互、报告、检查或查看其数据的访问机制
3)用户社区类型和使用它的适当工具
4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质
5)通过图形化输出发挥可视化功能的潜力
6)及时性和性能之间的权衡
11.6.5 度量指标
1、使用指标
包括注册用户数、连接用户数、并发用户数;审核用户、已生产的用户查询量和使用用户
2、主题域覆盖率
衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据四跨部门共享的,哪些还不是但也可能是共享的
3、响应时间和性能指标
第12章 元数据管理
12.1 引言
元数据不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理是不可或缺的。
12.1.1 业务驱动因素
可靠且良好的元数据管理有助于:
1)通过提供上下文语境和执行数据质量检查提高数据的可信度
2)通过扩展用途增加战略信息(如主数据)的价值
3)通过识别冗余数据和流程提高运营效率
4)防止使用过时或不正确的数据
5)减少数据的研究时间
6)改善数据使用者和IT专业人员之间的沟通
7)创建准确的影响分析,从而降低项目失败的风险
8)通过缩短系统开发生命周期时间缩短产品上市时间
9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
10)满足监管合规
管理不善容易导致的问题:
1)冗余的数据和数据管理流程
2)重复和冗余的字典、存储库和其他元数据存储
3)不一致的数据元素定义和与数据滥用的相关风险
4)元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
5)怀疑元数据和数据的可靠性
12.1.2 目标和原则
目标:
1)记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性
2)收集和整合来自不同来源的元数据,以确保人们了解来自不同组织不同部门的数据之间的相似与差异
3)确保元数据的质量、一致性、及时性和安全
4)提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
5)推广或强制使用技术元数据标准,以实现数据交换
原则:
1)组织承诺
2)战略
3)企业视角
4)潜移默化
5)访问
6)质量
7)审计
8)改进
12.1.3 基本概念
1、元数据与数据
元数据也是一种数据。一个人的元数据可能是另一个人的数据
2、元数据的类型
信息技术之外的类别:
1)描述元数据
描述资源并支持识别和检索,如作者标题等
2)结构元数据
描述资源及其组件之间的关系,如字数章节
3)管理元数据
描述管理生命周期的元数据,如版本号存档日期等
(1)业务元数据
主要关注数据的内容和条件,另包括与数据治理相关的详细信息。包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
1)数据集、表和字段的定义和描述
2)业务规则、转换规则、计算公式和推导公式
3)数据模型
4)数据质量规则和检核结果
5)数据的更新计划
6)数据溯源和数据血缘
7)数据标准
8)特定的数据元素记录系统
9)有效值约束
10)利益相关方联系信息(数据所有者、数据管理专员)
11)数据的安全/隐私级别
12)已知的数据问题
13)数据使用说明
(2)技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
1)物理数据库表名和字段名
2)字段属性
3)数据库对象的属性
4)访问权限
5)数据GRUD增删改查规则
6)物理数据模型,包括数据表名、键和索引
7)记录数据模型与实物资产之间的关系
8)ETL作业详细信息
9)文件格式模式定义
10)源到目标的映射文档
11)数据血缘文档,包括上游和下游变更影响的信息
12)程序和应用的名称和描述
13)周期作业(内容更新)的调度计划和依赖
14)恢复和备份规则
15)数据访问的权限、组、角色
(3)操作元数据
描述了处理和访问数据的细节
1)批处理程序的作业执行日志
2)抽取历史和结果
3)调度异常处理
4)审计、平衡、控制度量的结果
5)错误日志
6)报表和查询的访问模式、频率和执行时间
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别
8)备份、保留、创建日期、灾备恢复预案
9)服务水平协议(SLA)要求和规定
10)容量和使用模式
11)数据归档、保留规则和相关归档文件
12)清洗标准
13)数据共享规则和协议
14)技术人员的角色、职责和联系信息
3、ISO/IEC 11179元数据注册标准
提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。
1)数据元素生成和标准化框架
2)数据元数据分类
3)数据元素的基本属性
4)数据定义的形成规则和指南
5)数据元素的命名和识别原则
6)数据元素的注册
4、非结构化数据的元数据
描述元数据,如目录信息和同义关键字
结构元数据,如标签、字段结构、特定格式
管理元数据,如来源、更新计划、访问权限和导航信息
书目元数据,如图书馆目录条目
记录元数据,如保留策略
保存元数据,如存储、归档条件和保存规则
5、元数据来源
(1)应用程序中元数据存储库
(2)业务术语表
1)业务用户
2)数据管理专员
业务术语表应包含业务术语属性:
1)术语名称、定义、缩写或简称,以及任何同义词
2)负责管理与术语相关的数据的业务部门和/或应用程序
3)维护术语的人员姓名和更新日期
4)术语的分类或分类间的关联关系(业务功能关联)
5)需要解决的冲突定义、问题的性质、行动时间表
6)常见的误解
7)支持定义的算法
8)血缘
9)支持该术语的官方或权威数据来源
(3)商务智能工具
(4)配置管理工具
(5)数据字典
数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。可用于管理数据模型中每个元素的名称、描述、结构、特征、存储要求、默认值、关系、唯一性和其他属性。还包含表或文件定义
(6)数据集成工具
(7)数据库管理和系统目录
数据库目录是元数据的重要来源,它们描述了数据库的内容、信息大小、软件版本、部署状态、网络正常运行时间、基础架构正常运行时间、可用性,以及许多其他操作元数据属性。
(8)数据映射管理工具
(9)数据质量工具
(10)字典和目录
(11)事件消息工具
(12)建模工具和存储库
生成与应用程序或系统模型设计相关的元数据,如主题域、逻辑实体、逻辑属性、实体和属性关系、父类型和子类型、表、字段、索引、主键和外键、完整性约束以及模型中其他类型的属性。
(13)参考数据库
记录各种类型的枚举数据的业务价值和描述,在系统的上下文中使用。
(14)服务注册
是从面向服务的架构(SOA)角度管理和存储有关服务和服务终端的技术信息,如定义、接口、操作、输入和输出参数、制度、版本和示例使用场景。一些与服务相关的最重要的元数据包括服务版本、服务位置、数据中心、可用性、部署日期、服务端口、IP地址、统计端口、连接超时和连接重试超时。
(15)其他元数据存储
事件注册表、源列表或接口、代码集、词典、时空模式、空间参考、数字地理数据集的分发、存储库的存储库和业务规则
6、元数据架构的类型
元数据生命周期:
1)元数据创建和采集
2)元数据在一个或多个存储库中存储
3)元数据集成
4)元数据交付
5)元数据使用
6)元数据控制和管理
(1)集中式元数据架构
由单一的元数据存储库组成,包含来自各种不同源的元数据副本。集中式存储库的优点有:
1)高可用性
2)快速的元数据检索,因为存储库和查询功能在一起
3)解决了数据库结构的问题,使其不受第三方或商业系统特有属性的影响
4)抽取元数据时可进行转换,自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
缺点有:
1)必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。
2)维护集中式存储库的成本可能很高
3)元数据的抽取可能需要自定义模块或中间件
4)验证和维护自定义代码会增加对内部IT人员和软件供应商的要求
(2)分布式元数据架构
维护了一个单一的接入点。分布式元数据架构没有持久化的存储库
优点:
1)元数据总是尽可能保持最新且高效,因为它是从其数据源中直接检索的。
2)查询是分布式的,可能会提高响应和处理的效率
3)来自专有系统的元数据请求仅限于查询处理,而不需要
4)自动化元数据查询处理的开发可能更简单,只需要很少的人工干预
5)减少了批处理,没有元数据复制或同步过程
缺点:
1)无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项。
2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据
3)查询功能受源系统可用性的影响
4)元数据质量完全取决于源系统
(3)混合式元数据架构
降低了对专有系统进行手动干预和自定义编码访问功能的工作量。基于用户的优先级和要求,使用时尽可能是最新且有效的。不会提高系统的可用性。
(4)双向元数据架构
允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。
该设计强制元数据存储库包含最新版本的元数据源,并强制对源的更改管理,必须系统地捕获变更,然后加以解决;必须构建和维护附加的一系列处理接口,以将存储库的内容回写至元数据源。
12.2 活动
12.2.1 定义元数据战略
1)启动元数据战略计划
2)组织关键利益相关方的访谈
3)评估现有的元数据资源和信息架构
4)开发未来的元数据架构
5)制定分阶段的实施计划
12.2.2 理解元数据需求
1)更新频次
2)同步情况
3)历史信息
4)访问权限
5)存储结构
6)集成要求
7)运维要求
8)管理要求
9)质量要求
10)安全要求
12.2.3 定义元数据架构
1、创建元模型
创建一个元数据存储库的数据模型,也叫元模型;是定义元数据战略和理解业务需求后的第一个设计步骤。
2、应用元数据标准
对内标准包括命名规范、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括交换格式和应用程序接口设计
3、管理元数据存储
控制活动包括:
1)作业调度和监控
2)加载统计分析
3)备份、恢复、归档、消除
4)配置修改
5)性能调优
6)查询统计分析分析
7)查询和报表生成
8)安全管理
质量控制活动:
1)质量保证,质量控制
2)数据更新频率——与时间表匹配
3)缺失元数据报告
4)未更新的元数据报告
元数据管理活动包括:
1)加载、探测、导入和标记数据资产
2)记录与源的映射和迁移关系
3)记录版本
4)用户界面管理
5)连接数据集的元数据维护——为NoSQL提供支持
6)数据对内数据采集建立连接——自定义连接和作业元数据
7)外部数据源和订阅源的许可
8)数据增强元数据,如关联GIS
培训活动包括:
1)教育和培训用户和数据专员
2)生成和分析管理指标
3)对控制活动、查询、报告进行培训
12.2.4 创建和维护元数据
元数据管理的几个一般原则描述了管理元数据质量的方法:
1)责任
2)标准
3)改进
1、整合元数据
对元数据存储库的扫描有两种不同的方式:
1)专用接口
单步方式,扫描程序从来源系统中采集元数据,直接调用特定格式的装载程序,将元数据加载到元数据存储中。不需要输出任何中间元数据文件。
2)半专用接口
两步方式,扫描程序从来源系统中采集元数据,并输出到特定格式的数据文件中。扫描程序只产生目标存储库能够正确读取和加载的数据文件。可以被多种方式读取,所以这种接口的架构更加开放。
在此过程中,扫描程序产生和使用多种类型的文件:
1)控制文件
2)重用文件
3)日志文件
4)临时和备份文件
2、分发和传递元数据
1)元数据内部网站
2)报告、术语表和其他文档
3)数据仓库、数据集市和BI(商务智能)工具
4)建模和软件开发工具
5)消息传送和服务
6)web服务和应用程序接口(API)
7)外部组织接口方案(如供应链解决方案)
12.2.5 查询、报告和分析元数据
12.3 工具
主要工具是元数据存储库,包括整合层和手工更新的接口。处理和使用元数据的工具集成到元数据存储库中作为元数据来源。
元数据管理工具提供了在集中位置(存储库)管理元数据的功能,元数据可以手动输入,也可以通过专门的连接器从其他各种源中提取。,元数据存储库还提供与其他系统交换元数据的功能。
12.4 方法
12.4.1 数据血缘和影响分析
发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移信息。
基于程序编码的当前版本的血缘称为“实现态血缘”。映射规范文档中描述的血缘称为“设计态血缘。”
血缘创建的局限性在于元数据管理系统的覆盖范围
拼接的结果事一个表示数据从原始位置(数据源或记录系统)转移到最终位置的全景视图
(1)业务焦点
根据业务优先级寻找数据源的血缘关系
(2)技术焦点
从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。
12.4.2 应用于大数据采集的元数据
元数据标签应在采集时应用于元数据,然后元数据可以用来识别可访问的数据湖中的数据内容。数据剖析可以识别出数据域、数据关系和数据质量问题,并打上标签。
12.5 实施指南
12.5.1 就绪评估/风险评估
评估缺失高质量元数据可能带来的影响如下:
1)因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断
2)暴露敏感数据,使客户和员工面临风险,影响商业信誉和导致法律纠纷
3)如果了解数据的那些领域专家们离开了,那么他们了解的知识也随之被带走了。
组织准备情况的评估解决方法为:
对元数据相关活动现状进行正式的成熟度评估,评估内容应包括重要的业务数据元、可用的元数据术语表、数据血缘、数据剖析和数据质量管理过程、主数据管理成熟度和其他方面。
风险评估的交付成功包括元数据战略和实施战略
12.5.2 组织和文化变革
12.6 元数据治理
12.6.1 过程控制
数据管理团队负责定义标准和管理元数据的状态变化,同时可以负责组织内的质量提升活动、培训活动或实际培训活动。
通过多个不同阶段和状态的决策来确定业务术语和定义
12.6.2 元数据解决方案的文档
1)元数据管理实施状态
2)源和目标元数据存储
3)元数据更新的调度计划信息
4)留存和保持的版本
5)内容
6)质量声明或警告
7)记录系统和其他数据源状态(如数据内容历史加载、删除或更新标志)
8)相关工具、架构和人员
9)敏感信息和数据源的移除或脱敏策略
12.6.3 元数据标准和指南
XML模式、文档类型定义(DTD)、XML模式定义(XSD)。
12.6.4 度量指标
元数据管理环境的建议指标包括:
1)元数据存储库完整性
将企业元数据(范围内所有产品和实例)的理想覆盖率与实际覆盖率进行比较
2)元数据管理成熟度
根据能力成熟度模型(CMM-DMM)的成熟度评估方法
3)专职人员配备
以及职位描述中的角色定义说明
4)元数据使用情况
存储库的访问次数
5)业务术语活动
使用、更新、定义解析、覆盖范围
6)主数据服务数据遵从性
显示SOA解决方案中数据的重用情况
7)元数据文档质量
一个指标是通过自动和手动两种方式评估元数据文档的质量
另一个是度量具有定义的属性的百分比,以及随着时间推移而发生变化的趋势
8)元数据存储库可用性
正常运行时间、处理时间(批处理和查询)
第13章 数据质量
13.1 引言
定义:为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制等管理活动。
导致低质量数据产生的因素:
组织缺乏对低质量数据影响的理解等、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
13.1.1 业务驱动因素
建议正式数据质量管理的业务驱动因素包括:
1)提高组织数据价值和数据利用的机会
2)降低低质量数据导致的风险和成本
3)提高组织效率和生产力
4)保护和提高组织的声誉
许多直接成本均与低质量数据有关:
1)无法正确开具发票
2)增加客服电话质量,降低解决问题的能力
3)因错失商业机会造成收入损失
4)影响并购后的整合进展
5)增加受欺诈的风险
6)由错误数据驱动的错误业务决策造成损失
7)因缺乏良好信誉而导致业务损失
13.1.2 目标和原则
目标:
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
3)定义和实施测量、监控和报告数据质量水平的过程
4)通过过程和系统改进,识别和提倡提高数据质量的机会
原则:
1)重要性
改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定
2)全生命周期管理
数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其系统内部和系统之间流转时的数据管理。
3)预防
预防数据错误和降低数据可用性
4)根因修正
对流程和支持它们的系统进行更改
5)治理
必须支持高质量数据的开发
6)标准驱动
所有利益相关方都会有数据质量要求
7)客观测量和透明度
8)嵌入业务流程
流程中实施数据质量标准
9)系统强制执行
强制执行数据质量要求
10)与服务水平关联
纳入管理水平协议(SLA)
13.1.3 基本概念
1、数据质量
既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。挑战之一是,与质量相关的期望并不总是已知的。
2、关键数据
根据以下要求评估关键数据:
1)监管报告
2)财务报告
3)商业政策
4)持续经营
5)商业战略
3、数据质量维度
是数据的某个可测量的特性。
数据质量维度提供了可定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。为了衡量数据质量,组织需要针对重要业务流程和可以测量的参数建立特征。
Strong-Wang 数据质量的四个大类和15个指标
(1)内在数据质量
1)准确性
2)客观性
3)可信度
4)信誉度
(2)场景数据质量
1)增值性
2)关联性
3)及时性
4)完整性
5)适量性
(3)表达数据质量
1)可解释性
2)易理解性
3)表达一致性
4)简洁性
(4)访问数据质量
1)可访问性
2)访问安全性
Thomas《信息时代的数据质量》
(1)数据模型
1)内容
①数据关联性
②获取价值的能力
③定义清晰性
2)详细程度
①特征描述颗粒度
(2)属性域的精准度
1)构成
①自然性
②可识别性
③同一性
④最小必要冗余性
2)一致性
①模型各组成部分的语义一致性
②跨实体类型属性的结构一致性
3)应变性
①健壮性
②灵活性
4)数据值
①准确性
②完备性
③时效性
④一致性
5)数据表达
①适当性
②可解释性
③可移植性
④格式精确性
⑤格式灵活性
⑥表达空值的能力
⑦有效利用存储
⑧数据的物理实例与其格式一致
Larry English 《改善数据仓库和业务信息质量》
(1)固有质量特征
1)定义的一致性
2)值域的完备性
3)有效性或业务规则一致性
4)数据源的准确性
5)反映现实的准确性
6)精确性
7)非冗余性
8)冗余或分布数据的等效性
9)冗余或分布数据的并发性
(2)实用质量特征
1)可访问性
2)及时性
3)语境清晰性
4)可用性
5)多源数据的可整合性
6)适当性或事实完整性
DAMA UK白皮书 数据质量的6个核心维度:
1)完备性
存储数据量与潜在数据量的百分比
2)唯一性
在满足对象识别的基础上不应多次记录实体实例(事物)
3)及时性
数据从要求的时间点起代表现实的程度
4)有效性
如数据符合其定义的语法(格式、类型、范围),则数据有效
5)准确性
数据正确描述所描述的“真实世界”对象或事件的程度
6)一致性
比较事物多种描述与定义的差异
DAMA UK白皮书的其他特征
1)可用性
数据是否可理解、简单、相关、可访问、可维护,且达到正确的精度水平
2)时间问题
是否稳定,是否对合法的变更请求作出及时响应
3)灵活性
是否具有可比性,是否与其他数据有很好的兼容性?是否具备可用的分组和分类?是否能被重用?是否易于操作?
4)置信度
数据治理、数据保护和数据安全等管控是否到位?数据的可信性如何
5)价值
数据是否有良好的成本/收益实例?是否得到了最佳应用?是否危及人们的安全、隐私或企业的法律责任
一组普遍的数据质量维度定义:
准确性
数据正确表示真实实体的程度
完备性
是指是否存在所有必要的数据
完备性可以在数据集、记录或列级进行测量
一致性
可以指确保数据值在数据集内和数据集之间表达的相符程度。它也可以表示系统之间或不同时间的数据集大小和组成的一致程度。
完整性
包括与完备性、准确性和一致性相关的想法。在数据中,完整性通常指的是引用完整性或数据集内部的一致性
合理性
合理性是指数据模式符合预期的程度。
及时性
及时性的概念与数据的几个特性有关
唯一性/数据去重
唯一性是指数据集内的任何实体不会重复出现
有效性
是指数据值与定义的值域一致。
4、数据质量和元数据
5、数据质量ISO标准
ISO将质量数据定义为:“符合规定要求的可移植数据”
ISO 8000定义了数据供应链中任何组织都可以测试的一些特性,从而可以客观地确定数据与ISO8000之间是否具有一致性
6、数据质量改进生命周期
计划Plan执行Do检查Check行动Act
7、数据质量业务规则
1)定义一致性
2)数值存在和记录完备性
3)格式符合性
4)值域匹配性
5)范围一致性
6)映射一致性
7)一致性规则
指根据这些属性的实际值,在两个或多个属性之间关系的条件判定。
8)准确性验证
将数据值与记录系统或其他验证来源中的相应值进行比较
9)唯一性验证
10)及时性验证
表明与数据可访问性和可用性预期相关特征的规则
聚合检查的示例包括:
1)验证文件中记录数量的合理性
2)验证从一组交易中计算出的平均金额的合理性
3)验证指定时间段内交易数量的预期差异
8、数据质量问题的常见原因
(1)缺乏领导力导致的问题
有效管理数据质量的障碍包括:
1)领导和员工缺乏意识
2)缺乏治理
3)缺乏领导力和管理能力
4)难以证明改进的合理性
5)测量价值的工具不合适或不起作用
(2)数据输入过程中引起的问题
1)数据输入接口问题
2)列表条目放置
3)字段重载
4)培训问题
5)业务流程的变更
6)业务流程执行混乱
(3)数据处理功能引起的问题
1)有关数据源的错误假设
2)过时的业务规则
3)变更的数据结构
(4)系统设计引起的问题
1)未能执行参照完整性。
参照完整性对于确保应用程序或系统级别的高质量数据是必要的。如果没有强制执行参照完整性,或者关闭了验证,则有可能出现各种数据质量问题:
①产生破坏唯一性约束的重复数据
②既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值
③由于参照完整性要求已还原或更改,无法升级
④由于丢失的数据被分配为默认值而导致数据准确性
2)未执行唯一性约束
表或文件中的多个实例副本预期包含唯一实例
3)编码不准确和分歧
数据映射或格式不正确,或处理数据的规则不准确,处理过的数据就会出现质量问题
4)数据模型不准确
如果数据模型内的假设没有实际数据的支持,则会出现数据质量问题,包括实际数据超出字段长度导致数据丢失、分配不正确ID或键值等
5)字段重载
随着时间的推移,为了其他目的重用字段,而不是更改数据模型或代码,可能会导致混淆的值集、不明确的含义。
6)时间数据不匹配
采用不同的日期格式
7)主数据管理薄弱
不成熟的主数据管理可能为数据选择不可靠的数据源
8)数据复制
①单源-多个本地实例
②多源-单一本地实例
(5)解决问题引起的问题
9、数据剖析
是一种用于检查数据和评估质量的数据分析形式。使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,可以识别数据内容和结构中的模式:
1)空值数
2)最大/最小值
3)最大/最小长度
4)单个列值的频率分布
5)数据类型和格式
还包括跨列分析,识别不符合格式要求的水平,以及意外格式识别
10、数据质量和数据处理
(1)数据清理
1)实施控制以防止数据输入错误
2)纠正源系统中的数据
3)改进数据录入的业务流程
(2)数据增强
是给数据集添加属性以提高其质量和可用性的过程。通过集成组织内部的数据集可以获得,也可以通过购买外部数据
1)时间戳
2)审计数据
3)参考词汇表
4)语境信息
5)地理信息
6)人口统计信息
7)心理信息
如偏好、成员资格、休闲活动、交通方式
8)评估信息
针对资产评估、库存和销售数据
(3)数据解析和格式化
数据解析时使用预先确定的规则来解释其内容或值的分析过程
(4)数据转换和标准化
数据转换建立在标准化技术的基础之上。通过将原始格式和模式中的数据值映射到目标表述形式来指导基于规则的转换。
标准化是分析人员经过反复分析语境、语言学,以及公认的最常见的惯用语等,为获取规则而进行的一种特殊的格式转换。
13.2 活动
13.2.1 定义高质量数据
从不同角度探讨这个问题:
1)了解业务战略和目标
2)与利益相关方面谈,以识别痛点、风险和业务驱动因素
3)通过资料收集和其他剖析形式直接评估数据
4)记录业务流程中的数据依赖关系
5)记录业务流程的技术架构和系统支持
13.2.2 定义数据质量战略
1)了解并优先考虑业务需求
2)确定满足业务需求的关键数据
3)根据业务需求定义业务规则和数据质量标准
4)根据预期评估数据
5)分享调查结果,并从利益相关方哪里获得反馈
6)优先处理和管理问题
7)确定并优先考虑改进机会
8)测量、监控和报告数据质量
9)管理通过数据质量流程生成的元数据
10)将数据质量控制集成到业务和技术流程中
13.2.3 识别关键数据和业务规则
识别能描述或暗示有关数据质量特征要求的业务规则。
完整性规则反映了字段是强制的还是可选的。
13.2.4 执行初始数据质量评估
POC的步骤包括:
1)定义评估的目标
2)确定要评估的数据,
3)识别数据的用途和数据的使用者
4)利用待评估的数据识别已知风险,包括数据问题对组织的潜在影响。
5)根据已知和建议的规则检查数据
6)记录不一致的级别和问题类型
7)根据初步发现进行额外的深入分析,以便:
①量化结果
②根据业务影响优化问题
③提出关于数据问题根本原因的假设
8)与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
9)使用调查结果作为规划的基础
①解决问题,找到根本原因
②控制和改进处理流程,以防止问题重复发生
③持续控制和汇报
13.2.5 识别改进方向并确定优先排序
数据剖析和分析的步骤:
定义目标、了解数据使用和风险,根据规则衡量,记录并与领域专家确认结果,利用这些信息确定补救和改进工作的优先级。
剖析是分析数据质量的第一步。
13.2.6 定义数据质量改进目标
确定改进 的投资回报率:
1)受影响数据的关键性
2)受影响的数据量
3)数据的龄期
4)受问题影响的业务流程数量和类型
5)受问题影响的消费者、客户、供应商或员工数量
6)与问题相关的风险
7)纠正根本原因的成本
8)潜在的工作成本
13.2.7 开发和部署数据质量操作
1、管理数据质量规则
预先定义规则将:
1)对数据质量特征设定明确的期望
2)提供防止引入数据问题的系统编辑和控制要求
3)向供应商和其他外部方提供数据质量要求
4)为正在进行的数据质量测量和报告创建基础
规则应该是:
1)记录的一致性
2)根据数据质量维度定义
3)与业务影响挂钩
4)数据分析支持
5)由领域专家确认
6)所有数据消费者都可以访问
2、测量和监控数据质量
进行业务数据质量的原因:
1)向数据消费者通报质量水平
2)管理业务或技术流程,改变引入的变更风险
ValidDQI®=TestExecution®-ExceptionsFound®/TestExecution®
I nvalidDQI®=ExceptionFound®/TestExecutions®
r为正在测试的规则
3、制定管理数据问题的操作过程
(1)诊断问题
1)在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置
2)评估是否存在任何可能导致错误的环境变化
3)评估是否有其他过程问题导致了数据质量事件
4)确定外部数据是否存在影响数据质量的问题
(2)制定补救方案
1)纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等
2)修改系统以消除技术类的根本原因
3)制定控制措施以防止问题发生
4)引入额外的检查和监测
5)直接修正有缺陷的数据
6)基于变更的成本和影响对比更正后的数据的价值分析,不采取任何操作
(3)解决问题
1)评估替代方案的相对成本和优点
2)推荐计划中的一个备选方案
3)提供开发和实施该解决方案的计划
4)实施该解决方案
事件跟踪系统将收集与解决问题、分配工作、问题数量、发生频率,以及做出响应、给出诊断、计划解决方案和解决问题所需时间相关的性能数据。这些指标可以为当前工作流的有效性、系统和资源利用率提供有价值的洞察,它们是重要的管理数据点。
进行有效的跟踪需要做到以下几点:
1)标准化数据质量问题和活动
2)提供数据问题的分配过程
3)管理问题升级过程
4)管理数据质量解决方案工作流
4、制定数据质量服务水平协议
规定了组织对每个系统中数据质量问题进行响应和补救的期望。
数据质量SLA中定义的数据质量控制操作包括:
1)协议涵盖的数据元素
2)与数据缺陷相关的业务影响
3)与每个数据元素相关的数据质量指标
4)从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望
5)测量这些期望的方法
6)每次测量的可接受性阈值
7)如果不满足可接受性阈值,应通知数据管理专员
8)预期解决或补救问题的时间和截止日期
9)升级策略,以及可能的奖励和惩罚
13.3 工具
13.3.1 数据剖析工具
13.3.2 数据查询工具
13.3.3 建模和ETL工具
13.3.4 数据质量规则模板
13.3.5 元数据存储库
13.4 方法
13.4.1 预防措施
预防方法包括:
1)建立数据输入控制
创建数据输入规则,防止无效或不准确的数据进入系统
2)培训数据生产者
确保上游系统的员工了解其数据对下游用户的影响,对数据的准确性和完整性进行激励或基础评估,让其不仅仅追求录入速度
3)定义和执行规则
4)要求数据供应商提供高质量数据
检查外部供应商的流程,以检查其结构、定义、数据源和数据出处
5)实施数据治理和管理制度
确保定义并执行以下内容的角色和责任:参与规则、决策权和有效管理数据和信息资产的责任。
6)制定正式的变更控制
确保在实施之前对存储数据的所有变更进行定义和测试
13.4.2 纠正措施
1)自动修正
自动更正技术包括基于规则的标准化、规范化和更正。修改后的值是在没有人工干预的情况下获取或生成和提交的。
2)人工检查修正
使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查。
3)人工修正
在缺乏工具、自动化程度不足或者确定人工监督能更好地处理变更的情况下,人工更正是唯一的选择。
13.4.3 质量检查和审核代码模块
创建可共享、可连接、可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程
13.4.4 有效的数据质量指标
1)可度量性
数据质量指标可被量化
2)业务相关性
3)可接受性
4)问责/管理制度
关键利益相关方
5)可控制性
应触发行动来改进数据
6)趋势分析
一段时间内测量数据质量改进的情况
13.4.5 统计过程控制
SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。SPC基于假设:当一个具有一致输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势(变量的值接近其中心值的趋势,如平均值、中值或模式)和围绕中心值可变性(如范围、方差、标准偏差)的度量来确定过程中的偏差公差。
主要工具是控制图,是一个时间序列图,包括平均值的中心线,以及描述测算的上下控制界限。
SPC通过识别过程中的变化来衡量过程结果的可预测性。
第一步是对过程进行度量,以识别和消除特殊原因
第二步是尽可能早地发现异常变化,因为早期发现问题简化了对问题根源的调查过程
13.4.6 根本原因分析
是一个理解导致问题发生的因素及其作用原理的过程。目的是识别潜在的条件,这些条件一旦消除,问题也将消失。
13.5 实施指南
数据质量项目的实施计划:
1)有关数据价值和低质量数据成本的指标
2)IT/业务交互的操作模型
3)项目执行方式的变化
4)对业务流程的更改
5)为补救和改进项目提供资金
6)为数据质量运营提供资金
13.5.1 就绪评估/风险评估
1)管理层承诺将数据作为战略资产进行管理
2)组织对数据质量的当前理解
3)数据的实际情况
4)与数据创建、处理或使用相关的风险
5)可扩展数据质量监控的文化和技术就绪。
13.5.2 组织与文化变革
首先是提高数据对组织作用和重要性的认识。
培训应着重于:
1)导致数据问题的常见原因
2)组织数据生态系统中的关系以及为什么提高数据质量需要全局方法
3)糟糕数据造成的后果
4)持续改进的必要性
5)要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响。
13.6 数据质量和数据治理
数据质量团队的利益相关方合作:
1)风险与安全人员可以帮助识别与数据相关的组织弱点
2)业务流程工程和培训人员,可以帮助团队实施流程改进
3)业务和运营数据专员以及数据所有者,他们可以识别关键数据、定义标准和质量期望,并优先处理数据问题
治理组织可以通过以下方式加快数据质量方案的工作:
1)设定优先级
2)确定和协调有权参与各种数据质量相关决定和相关活动的人
3)制定和维护数据质量标准
4)报告企业范围内数据质量的相关测量
5)提供有助于员工参与的指导
6)建立知识共享的沟通机制
7)制定和应用数据质量和合规政策
8)监控和报告绩效
9)共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识
10)解决变化和冲突,提供方向性指导
13.6.1 数据质量制度
1)制度的目的、范围和适用性
2)术语定义
3)数据质量团队的职责
4)其他利益相关方的责任
5)报告
6)策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等
13.6.2 度量指标
1)投资回报
2)质量水平
测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率
3)数据质量趋势
随着时间的推移,针对阈值和目标的质量改进,或各阶段的质量事件
4)数据问题管理指标
①按数据质量指标对问题分类与计数
②各业务职能部门及其问题的状态
③按优先级和严重程度对问题排序
④解决问题的时间
5)服务水平的一致性
包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。
6)数据质量计划示意图
现状和扩展路线图

第14章 大数据和数据科学
14.1 引言
14.1.1 业务驱动
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。
14.1.2 原则
组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。
14.1.3 基本理念
1、数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
数据科学依赖于:
1)丰富的数据源
具有能够展示隐藏在组织或客户行为中不可见模式的潜力
2)信息组织和分析
用来领会数据内容,结合数据集针对有意义模式进行假设和测试的技术
3)信息交付
4)展示发现和数据洞察
分析和揭示结果,分享洞察观点
2、数据科学的过程
1)定义大数据战略和业务需求
每一步输出是下一步输入。可衡量的需求
2)选择数据源
3)采集和提取数据资料
4)设定数据假设和方法
5)集成和调整数据进行分析
模型的可行性部署取决于源数据的质量。
6)使用模型探索数据
对集成的数据应用统计分析和机器学习算法进行验证、训练,并随着时间的推移演化模型。
7)部署和监控
可以将产生有用信息的那些模型部署到生产环境中,以持续监控它们的价值和有效性。
3、大数据
1)数据量大(Volume)
2)数据更新快(Velocity)
3)数据类型多样/可变(Variety、Variability)
4)数据黏度大(Viscosity)
数据使用或集成的难度比较高
5)数据波动性大(Volatility)
数据更改的频率,以及由此导致的数据有效时间短
6)数据准确性低(Veracity)
数据的可靠程度不高
4、大数据架构组件
5、大数据来源
6、数据湖
1)数据科学家可以挖掘和分析数据的环境
2)原始数据的集中存储区域,只需很少量的转换
3)数据仓库明细历史数据的备用存储区域
4)信息记录的在线归档
5)可以通过自动化的模型识别提取流数据的环境
7、基于服务的架构
基于服务的体系架构(Services-Based Architecture ,SBA)正在成为一种立即提供数据的方法,并使用相同的数据源来更新完整、准确的历史数据集。
1)批处理层
数据湖作为批处理层提供服务,包括近期的历史和数据
2)加速层
只包括实时数据
3)服务层
提供连接批处理和加速层数据的接口
8、机器学习
探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合。
无监督学习通常被称为数据挖掘,而监督学习是基于复杂的数学理论,特别是统计学、组合学和运筹学
机器学习三种类型
1)监督学习
基于通用规则(如将SPAM邮件与非SPAM邮件分开)
2)无监督学习
基于找到的那些隐藏的规律(数据挖掘)
3)强化学习
基于目标的实现(如在国际象棋中击败对手)
9、语义分析
使用自然语言NLP分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景
10、数据和文本挖掘
数据挖掘是一种特殊的分析方法,它使用各种算法揭示数据中的规律。
1)剖析
剖析尝试描述个人、群体或人群的典型行为,用于建立异常检测应用程序的行为规范,如欺诈检测和计算机系统入侵监控。剖析结果事许多无监督学习组件的输入。
2)数据缩减
数据缩减是采用较小的数据集来替换大数据集,较小数据集中包含了较大数据集中的大部分重要信息。
3)关联
关联是一种无监督的学习过程,根据交易涉及的元素进行研究,找到它们之间的关联。
4)聚类
基于数据元素的共享特征,将它们聚合为不同的簇。
5)自组织映射
是聚类分析的神经网络方法,有时被称为Kohonen网络或拓扑有序网络,旨在减少评估空间中的维度,同时尽可能地保留距离和邻近关系,类似于多维度缩放
降维就像从等式中移除一个变量而不影响结果,使得这些问题变得更容易被解决,数据更容易被展示出来,
11、预测分析
预测分析是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。
最简单形式是预估。有许多基于回归分析做预估并从平滑算法中受益的技术,平滑数据的最简单方法是通过移动平均值,甚至是加权平均值。
12、规范分析
规范分析比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。
13、非结构化数据分析
结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。监督学习技术也可用于在编程过程中提供方向、监督和指导,利用人为干预在必要时解决歧义问题。
14、运营分析
运营分析也称为运营BI或流式分析,其概念是从运营过程与实时分析的整合中产生的。包括用户细分、情绪分析、地理编码以及应用于数据集的其他技术,用于营销活动分析、销售突破、产品推广、资产优化和风险管理
15、数据可视化
可视化是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览来帮助理解基础数据。
16、数据混搭
DataMashups 将数据和服务结合在一起,以可视化的方式展示见解或分析结果。许多虚拟化工具通过一些功能实现混搭,通过公共数据元素关联数据源,这些元素最初用于将名称或描述性文本关联到存储的代码。
14.2 活动
14.2.1 定义大数据战略和业务需求
大数据战略必须包括以下评估标准:
1)组织视图解决什么问题,需要分析什么
2)要使用或获取的数据源是什么
3)提供数据的及时性和范围
4)对其他数据结构的影响以及与其他数据结构的相关性
5)对现有建模数据的影响。包括扩展对客户、产品和营销方法的知识。
14.2.2 选择数据源
了解以下基本事实:
1)数据源头
2)数据格式
3)数据元素代表什么
4)如何连接其他数据
5)数据的更新频率
管理数据源
1)基础数据
2)粒度
3)一致性
4)可靠性
5)检查/分析新数据源
14.2.3 获得和接收数据源
迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。
14.2.4 制定数据假设和方法
数据科学能够发现数据的意义和其中蕴含见解的答案集。制订数据科学方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。
模型的效果取决于输入数据的质量和模型本身的及安全性。
14.2.5 集成和调整数据进行分析
准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。
一种方法是使用共有键整合数据的通用模型;另一种方法是使用数据库引擎内的索引扫描和连接数据,以获得相似性和记录连接的算法和方法。
14.2.6 使用模型探索数据
1、填充预测
使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。
2、训练模型
需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。
转换到生产之前,必须完成模型验证。通过训练和验证的模型偏移量来解决任何填充失衡或数据偏差问题。
3、评估模型
将数据放入平台并准备分析后,数据科学就开始。
需要用到数据科学实践中的一个道德组件
4、创建数据可视化
设定可视化的目的和参数:
时间点状态、趋势与异常、移动部分之间的关系、地理差异及其他
14.2.7 部署和监控
1、揭示洞察和发现
通过数据可视化来展示和发现和数据洞察是数据科学研究的最后一步,洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
2、使用附加数据源迭代
从特定的一组数据源中学习的过程,通常会导致需要不同的或额外的数据源,以支持得到的结论并向现有模型中添加洞察。
14.3 工具
其他改变查看数据和信息方式的技术:
1)数据库内的高级分析
2)非结构化数据分析(Hadoop,MapReduce)
3)分析结果与操作系统的集成
4)跨多媒体和设备的数据可视化
5)链接结构化和非结构化信息的语义
6)使用物联网的新数据源
7)高级可视化能力
8)数据扩展能力
9)技术和工具集的协作
14.3.1 MPP无共享技术和架构
大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。
在MPP数据库中,数据在多个处理服务器之间进行分区,每个服务器都有自己的专用内存来处理本地数据。处理服务器之间的通信通常由管理节点控制,并通过网络互联进行。因为该架构没有磁盘共享,也不发生内存争用,因此称作“无共享”。
该技术还支持数据库内分析功能——在处理器级执行分析功能(如K-Means,回归分析的的能力)。
14.3.2 基于分布式文件的数据库
基于文件的解决方案中使用的模型称为MapReduce。该模型有三个主要步骤:
1)映射(Map)
识别和获取需要分析的数据
2)洗牌(Shuffle)
依据所需的分析模式组合数据
3)归并(Reduce)
删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。
14.3.3 数据库内算法
数据库内算法(In-database algorithm)使用类似MPP的原则,MPP无共享架构中的每个处理器可以独立运行查询,因此可在计算节点级别实现新形势的分析处理。
14.3.4 大数据云解决方案
14.3.5 统计计算和图形语言
R语言是用于统计计算和图形的开源脚本语言环境。它提供了各种各样的统计技术,如线性和非线性建模、经典统计检验、时间序列分析、分类和聚类。
14.3.6 数据可视化工具集
这些工具的优势:
1)复杂的分析和可视化类型
2)内置可视化最佳实践
3)交互性,实现视觉发现
14.4 方法
14.4.1 解析建模
要通过其他应用程序共享和执行模型,需查找支持预测模型标记语言(PMML)的工具,这是一种基于XML的文件格式。
利用API接口直接进入存储层HDFS,可以提供各种数据访问技术,如SQL、内容流、机器学习和用于数据可视化的图形库,
解析模型与不同的分析深度相关联:
1)描述性建模以紧凑的方式汇总或表示数据结构。这种方法并不总能验证因果假设或预测结果,但确实能够使用算法定义或改善变量之间的关系,从而为这种分析提供输入。
2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。虽然它使用类似于数据挖掘和预测分析的技术,但其目的不同。它不能预测结果,只是将模型结果与现有数据相匹配。
预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集上的预测能力。
避免过度拟合——这种情况发生在用于训练模型的数据集不具有代表性,模型过于复杂,或者将少量噪声数据具有的特性当做大部分数据的共性时。
训练误差会随着模型复杂性的提高而持续降低,并且可以降至零。数据集随机分成三个部分:训练集、测试集和校验集。训练集用于拟合模型,测试集用于评估最终模型的泛化误差,校验集用于预测选择的误差。
14.4.2 大数据建模
大数据建模是一项技术挑战,对想要描述和管控数据的组织而言至关重要。
对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。
14.5 实施指南
管理大数据:确保数据源可靠、具有足够的元数据以支持数据使用、管理数据质量、确定如何整合来自不同源的数据,以及确保数据安全且受到保护。实施大数据环境的差异与一组未知问题有关:如何使用数据、哪些数据有价值、需要保留多长时间。
14.5.1 战略一致性
战略交付成果应考虑管理以下要素:
1)信息生命周期
2)元数据
3)数据质量
4)数据采集
5)数据访问和安全性
6)数据治理
7)数据隐私
8)学习和采用
9)运营
14.5.2 就绪评估/风险评估
1)业务相关性
2)业务准备情况
3)经济可行性
4)原型
5)可能最具挑战性和决策将围绕数据采购、平台开发和资源配置进行。
6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
7)市场上有多种工具和技术,满足一般需求僵尸一个挑战
8)及时保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
9)培养内部人才的时间可能会超过交付窗口的时间
14.5.3 组织与文化变迁
跨职能角色:
1)大数据平台架构师
硬件、操作系统、文件系统和服务
2)数据摄取架构师
数据分析、系统记录、数据建模和数据映射,提供或支持将源映射到Hadoop集群以进行查询和分析
3)元数据专家
元数据接口、元数据架构和内容
4)分析设计主管
最终用户分析设计、最佳实践依靠相关工具集指导实施,以及最终用户结果集简化
5)数据科学家
提供基于统计和可计算性的理论知识,交付适当的工具和技术,应用到功能需求的架构和模型设计咨询。
14.6 大数据和数据科学治理
大数据需要业务和技术控制,解决以下问题:
1)寻源
来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源
2)共享
组织内部和外部要签订的数据共享协议和合同、条款和条件
3)元数据
数据在源端意味着什么,如何解释输出端的结果
4)丰富
是否丰富数据,如何丰富数据,以及丰富数据的好处
5)访问
发布什么,向谁发布,如何以及何时发布
14.6.1 可视化渠道管理
14.6.2 数据科学和可视化标准
标准包括:
1)分析范例、用户团体、主题域的工具标准
2)新数据的请求
3)数据集流程标准
4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:
①数据包含和排除
②模型中的假设
③结果统计有效性
④结果解释的有效性
⑤采用适当的方法
14.6.3 数据安全
14.6.4 元数据
元数据特征化数据的结构、内容和质量,包括数据的来源、数据的血缘沿袭、数据的定义、以及实体和数据元素的预期用途。技术元数据可以从大数据工具中获取,包括数据存储层、数据整合、MDM甚至源文件系统。考虑实时数据、静态数据和计算性数据元素,就要明确源端的数据沿袭关系。
14.6.5 数据质量
数据质量是与预期结果偏差的度量:差异越小,数据满足期望越好,质量就越高。
高级数据质量工具集的功能:
1)发现
信息驻留在数据集中的位置
2)分类
基于标准化模式存在哪些类型的信息
3)分析
如何填充和构建数据
4)映射
可以将哪些其他数据集与这些值匹配
14.6.6 度量指标
1、技术使用指标
使用技术分析手段查找数据热点(最常访问的数据),以便管理数据分发和保持性能。
2、加载和扫描指标
定义了提取率以及与用户社区的交互。
3、学习和故事场景
常用的测量方法包括:
1)已开发模型的数量和准确性
2)已识别的机会中实现的收入
3)避免已识别的威胁所降低的成本
第15章 数据管理成熟度评估
15.1 引言
能力成熟度评估(Capability Maturity Assessment ,CMA)是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。
基于评估结果,组织可以制定路线图以实现以下目标:
1)与过程、防范、资源和自动化相关的高价值改进机会
2)符合业务战略的能力
3)为定期基于模型评估能力开展治理项目
数据管理成熟度评估(DMMA)可用于全面评估数据管理,也可用于聚焦单个知识领域甚至单个过程。
15.1.1 业务驱动因素
1)监管
最低成熟度水平要求
2)数据治理
出于规划与合规性目的,数据治理需要进行成熟度评估
3)过程改进的组织就绪
组织认识到要改进其实践过程应从评估其当前状态开始。
4)组织变更
组织变更会带来数据管理挑战。DMMA为应对这些挑战制订了规划。
5)新技术
技术的进步提供了管理和使用数据的新方法。
6)数据管理问题
15.1.2 目标和原则
在实现其主要目标时,DMMA可以对文化产生积极影响。它有助于:
1)向利益相关方介绍数据管理概念、原则和实践
2)厘清利益相关方在组织数据方面的角色和责任
3)强调将数据作为关键资产进行管理的必要性
4)扩大对整个组织内数据管理活动的认识
5)有助于改进有效数据治理所需的协作
目标:
1)全面发现和评估整个组织的关键数据管理活动
2)向利益相关方介绍数据管理的概念、原则和实践,并在更广泛的背景下确定其作为数据创建者和管理者的角色和职责
3)建立或加强可持续的企业范围数据管理计划,以支持运营和战略目标
15.1.3 基本概念
1、评价等级及特点
1)0级:无能力。
2)1级:初始/临时
使用有限的工具集进行通用的数据管理,很少或根本没有治理活动。数据处理高度依赖于少数专家,角色和责任在各部门中分开定义。每个数据所有者自主接收、生成和发送数据控件的应用不一致。
3)2级可重复
有一致的工具和角色定义来支持流程执行。评估标准可能包括对任意一个流程进行控制,如记录数据质量问题。
4)3级 已定义
新兴数据管理能力。将引入可扩展的数据管理流程将其制度化,并将数据管理视为一种组织促成因素。
5)4级 已管理
从1-3级增长中获得的经验积累使组织以及数据模型和系统控制的一致性。
6)5级 已优化
当数据管理实践得到优化时,由于流程自动化和技术变更管理,它们是高度可预测的,这个成熟度级别的组织会更关注于持续改进。支持跨流程查看数据
2、评估标准
评估标准:
1)一级:是否有数据建模实践以及多少个系统
2)二级:要求定义企业数据建模方法
3)三级:考察该方法的实施推广进度
4)四级:查看建模标准是否得到了有效的执行
5)五级:要求有适当的方式来改进建模实践
可根据语境关系图中的类别制定标准:
1)活动
2)工具
3)标准
4)人员和资源
3、现有DMMA框架
(1)CMMI数据管理成熟度模型(DMM)
1)数据管理策略
2)数据治理
3)数据质量
4)平台与架构
5)数据操作
6)支持流程
(2)EDM委员会DCAM
(3)IBM数据治理委员会成熟度模型
1)结果
2)使能因素
3)核心内容
4)支持内容
(4)斯坦福数据治理成熟度模型
该模型区分基础部分(意识、形式化、元数据)和项目部分(数据管理、数据质量、主数据)。在每部分,该模型都清楚地说明了人员、政策和能力的驱动因素,而且阐明了每个成熟度级别的特征,并为每个级别提供了定性和定量的测量。
(5)Gartner的企业信息管理成熟度模型
建立了评估愿景、战略、度量、治理、角色和责任、生命周期和基础架构的标准。
15.2 活动
15.2.1 规划评估活动
1、定义目标
任何组织当其决定数据管理成熟度评估时,其实已经实在努力改进。
2、选择框架
根据当前状况和评估目标的假设审查这些框架,以便选择一个对组织有帮助意义的框架。
3、定义组织范围
1)局部评估
2)企业评估
侧重于组织中广泛存在的、有时是不连贯的部分。
可以由多个局部评估组成,也可以是一个独立的任务。
4、定义交互方法
5、计划沟通
1)数据管理成熟度评估的目的
2)评估应如何进行
3)他们参与的是什么部分
4)评估活动的时间表
15.2.2 执行成熟度评估
1、收集信息
至少包括评估标准的正式评级,还可以包括访谈和焦点小组的成果、系统分析和设计文档、数据调查、电子邮件字符串、程序手册、标准、策略、文件存储库、批准工作流、各种工作产品、元数据存储库、数据和集成参考架构、模板和表单。
2、执行评估
改进需要遵循的过程:
1)审查评级方法,并为每个工作产品或活动给定初步评级
2)记录支持证据
3)与参与者一起讨论,就每个领域的最终评分达成共识
4)记录关于模型标准的声明和评审员的解释,作为评级的说明
5)开发可视化工具,展示说明评估结果。
15.2.3 解释结果和建议
1、报告评估结果(评估报告应包括:)
1)评估的业务因素
2)评估的总体结果
3)按主题分类有差距的评级
4)弥补差距的建议方法
5)所观察到的组织的优势
6)进展的风险
7)投资和成果选项
8)衡量进展的治理和指标
9)资源分析与未来潜在效用
10)可在组织内使用或重复使用的组件
2、制定管理层简报
15.2.4 制订有针对性的改进计划
1)对特定数据管理功能进行改进的系列活动
2)实施改进活动的时间表
3)一旦活动实施,DMMA评级的预期改善情况
4)监督活动,包括在时间线上逐渐成熟的监督
15.2.5 重新评估成熟度
1)通过第一次评估建立基线评级
2)定义重新评估参数,包括组织范围
3)根据需要,在公布的时间表上重复DMM评估
4)跟踪相对于初始基线的趋势
5)根据重新评估结果制定建议
15.3 工具
1)数据管理成熟度框架
DMM框架
2)沟通计划
利益相关方的参与模式、要共享的信息类型和时间表等。
3)协作工具
允许共享评估结果。
4)知识管理和元数据存储库
15.4 方法
15.4.1 选择DMM框架
1)易用性
2)全面性
3)可扩展性和灵活性
4)内置的未来演进路径
5)行业不可知论与行业特定论
6)抽象或详细程度
7)非规定性
8)按主题组织
9)可重复
10)由中立的独立组织支持
11)技术中立
12)培训支持
15.4.2 DAMA-DMBOK框架使用
15.5 实施指南
15.5.1 就绪评估/风险评估
缺乏组织认同
缺乏DMMA专业知识
缺乏沟通计划或标准
组织中缺乏“数据说话”
关于数据的对话很快就转移到关于系统的讨论
用于分析的资产不完整或已过期
关注点太过狭小
难以接近的工作人员或系统
出现诸如监管变化的意外情况
15.5.2 组织和文化变革
15.6 成熟度管理治理
15.6.1 DMMA过程监督
属于数据治理团队。
15.6.2 度量指标
1)DMMA评级
2)资源利用率
3)风险敞口
对风险情景作出反应的能力,反映了组织相对于其DMMA评级的能力。
4)支出管理
①数据管理可持续性
②实现主动性的目标和目的
③沟通的有效性
④教育和培训的有效性
⑤变更采用的速度
⑥数据管理价值
⑦对业务目标的贡献
⑧降低风险
⑨提高运营效率
5)DMMA的输入
计数、覆盖范围、可用性、系统数量、数据量、涉及的团队等。
6)变革速度
指一个组织提高自身能力的速度
第16章 数据管理组织与角色期望
16.1 引言
16.2 了解现有的组织和文化规范
1)数据在组织中的作用
2)关于数据的文化规范
3)数据管理和数据治理实践
4)如何组织和执行工作
5)汇报关系的组织方式
6)技能水平
16.3 数据管理组织的结构
16.3.1 分散运营模式
数据管理职能分布在不同的业务部门和IT部门。
优点:
组织结构相对扁平,数据管理组织与业务线或IT部门具有一致性。这种一致性通常意味着对数据要有清晰的理解,相对容易实施或改进。
缺点:
让过多的人员参与治理和制定决策,实施协作决策通常比集中发布号令更加困难。分散模式一般不太正式,可能难以长期性维持。
16.3.2 网络运营模式
通过RACI矩阵,利用一系列的文件记录联系和责任制度,使分散的非正规性组织变得更加正式,称为网络模式。他作为人和角色之间的一系列已知连接运行,可以表示为“网络”。
优点:
分散模式(结构扁平、观念一致、快速组建)
缺点:
需要维护和执行与RACI相关的期望
16.3.3 集中运营模式
最成熟且最正式的数据管理运营模式。所有工作都由数据管理组织掌控。参与数据治理和数据管理的人员直接向负责治理、管理职责、元数据管理、数据质量管理、主数据和参考数据管理、数据架构、业务分析等工作的数据管理主管报告。
优点:
它为数据管理或数据治理建立了正式的管理职位,且拥有一个最终决策人。因为职责是明确的,所以决策更容易。
缺点:
实施集中模式通常需要重大的组织变革。将数据管理的角色从核心业务流程正式分离,存在业务知识逐渐丢失的风险。
16.3.4 混合运营模式
包含分散模式和集中模式的优点。在混合模式中,一个集中的数据管理卓越中心与分散的业务部门团队合作,通常通过一个代表关键业务部门的执行指导委员会和一系列针对特定问题的技术工作组来完成工作。
优点:
可以从组织的顶层制定适当的指导方向,并且有一位对数据管理或数据治理负责的高管。
缺点:
组织的建立,通常这种模式需要配备额外的人员到卓越中心。
16.3.5 联邦运营模式
提供了额外的集中层/分散层,这在大型全球企业中通常是必需的。联邦模式提供了一个具有分散执行的集中策略。因此,对于大型企业来说,它可能是唯一可行的模式。一个负责整个组织数据管理的主管领导,负责管理企业卓越中心。
优点
使组织能够根据特定的数据实体、部门挑战或区域优先级来确定优先级
缺点
管理起来较复杂,层次太多,需要在业务线的自治和企业的需求之间取得平衡,而这种平衡会影响企业的优先级。
16.3.6 确定组织的最佳模式
运营模式是改进数据管理和数据治理实践的起点。引入运营模式之前,需要了解它如何影响当前组织以及它可能会如何发展。评估当前组织结构是集中的、分散的,还是混合的、层级化的或相对扁平的?
16.3.7 DMO替代方案和设计考虑因素
大多数组织在转向正式的DMO数据管理组织之前,都处于分散模式。当一个组织看到数据质量改进带来的影响时,它可能已开始通过数据管理RACI矩阵来制定责任制度,并演变成网络模式。
构建运营模式时。需要注意:
1)通过评估当前状态来确定起点
2)将运营模式与组织结构联系起来
3)考虑:
①组织复杂性+成熟度
②领域复杂性+成熟度
③可扩展性
4)获得高层支持——这是可持续发展模式的必要条件
5)确保任何领导机构都是决策机构
6)考虑试点规划和分批次实施
7)专注于高价值、高影响力的数据域
8)使用现有资源
9)永远不要采用一刀切的方法
16.4 关键成功因素
16.4.1 高管层的支持
16.4.2 明确的愿景
16.4.3 积极的变更管理
16.4.4 领导者之间的共识
16.4.5 持续的沟通
16.4.6 利益相关方的参与
16.4.7 指导和培训
16.4.8 采用度量策略
如何制定度量标准如下:
1)是否采用
2)改进的程度,或相对于之前状态的增量
3)数据管理的有利方面。数据管理如何影响结果可测量的解决方案
4)改进的流程和项目
5)识别并规避的风险
6)数据管理的创新方面。如何从根本上改变业务的方式
7)可信度分析
16.4.9 坚持指导原则
指导原则阐明了组织的共同价值观,是战略愿景和使命的基础,也是综合决策的基础。
16.4.10 演进而非革命
有助于最大限度地减少重大变化或大规模高风险项目。
16.5 建立数据管理组织
16.5.1 识别当前的数据管理参与者
首先回顾现有的数据管理活动,如谁创建和管理数据,谁评估数据质量,甚至谁的职位头衔中包括“数据”二字。
16.5.2 识别委员会的参与者
无论组织选择哪种运营模式,一些治理工作都需要由数据治理指导委员会和工作组来完成。
16.5.3 识别和分析利益相关方
利益相关方是指能够影响数据管理规划或被其影响的任何个人或团体。利益相关方可以在组织内部或外部。
利益相关方需要回答以下问题:
1)谁将受到数据管理的影响
2)角色和职责如何转变
3)受影响的人如何应对变化
4)人们会有哪些问题和顾虑
考虑以下几点:
1)谁控制关键资源
2)谁可以直接或间接阻止数据管理计划
3)谁可以影响其他关键因素
4)利益相关方是否会支持即将发生的变化
16.5.4 让利益相关方参与进来
16.6 数据管理组织与其他数据相关机构之间的沟通
16.6.1 首席数据官
1)建立组织数据战略
2)使以数据为中心的需求与可用的IT和业务资源保持一致
3)建立数据治理标准、政策和程序
4)为业务提供建议(以及可能的服务)以实现数据能动性,如业务分析、大数据、数据质量和数据技术
5)向企业内外部利益相关方宣传良好的信息管理原则的重要性
6)监督数据在业务分析和商务智能中的使用情况
16.6.2 数据治理
16.6.3 数据质量
数据质量管理是数据管理实践和组织的关键能力。
16.6.4 企业架构
数据管理通过以下几种方式进行交互:
1)通过数据治理
2)通过ARB
3)点对点
企业架构实践包括:
1)技术架构
2)应用架构
3)信息(或数据)架构
4)业务架构
16.6.5 管理全球化组织
1)遵守标准
2)同步流程
3)明确责任制度
4)培训和交流
5)有效地监控和度量
6)发展规模经济
7)减少重复性工作
16.7 数据管理角色
16.7.1 组织角色
IT数据管理提供从数据、应用程序和技术架构到数据库管理的一系列服务。集中式数据管理服务组织专注于数据管理,该组织团队可能包括数据管理执行官…
联邦式数据管理服务会包括一组IT单元,而每个单元分别侧重于数据管理的某个方面。
16.7.2 个人角色
1、执行官角色
首席数据官CDO
2、业务角色
主要关注数据治理功能,尤其是管理职责。
3、IT角色
1)数据架构师
2)数据建模师
3)数据模型管理员
4)数据库管理员
5)数据安全管理员
6)数据集成架构师
7)数据集成专家
8)分析/报表开发人员
9)应用架构师
10)技术架构师
11)技术工程师
12)桌面管理员
13)IT审计员
4、混合角色
1)数据质量分析师
2)元数据专家
3)BI架构师
4)BI分析师/管理员
5)BI项目经理
第17章 数据管理和组织变革管理
17.1 引言
成功的数据管理实践需要:
1)根据信息价值链调整数据责任制度,以此来学习横向管理
2)将垂直的(筒仓)数据责任制度转变为共享的信息管理工作
3)将局部业务关注点或IT部门工作中的信息质量演变为整个组织的核心价值
4)将对信息质量的思考从“数据清洗与数据质量记分卡”提升转变为组织的基本能力
5)对不良数据管理引发的代价和规范化数据管理带来的价值进行衡量
实现组织变更要必须了解:
1)为什么变革会失败
2)有效变革的触发因素
3)变革的障碍
4)人们是如何经历变革过程的
17.2 变革法则
1)组织不变革,人就变,
2)人们不会抗拒变革,但抵制被改变
3)事情之所以存在是惯性所致
4)除非有人推动变革,否则很可能止步不前
5)如果不考虑人的因素,变革将很容易
17.3 并非管理变革:而是管理转型过程
变革管理的终极目标是说服人们踏上变革之旅。首要任务的理解目标。
过渡时应注意的关键点:
(1)告别过去
1)帮助大家理解当前的问题,以及变革的必要性
2)了解谁有可能失去什么
3)损失是主观的
4)期待并接受悲伤的迹象,公开地并具有同情心地承认损失
5)定义什么已经结束了,什么还未结束
6)带着尊重善待过去
7)展现如何结束某些事情可以确保对人们重要的事情能够得以继续并改善
8)向人们提供信息,然后以不同的方式反复地做
9)使用利益相关方来规划如何以最佳方式对待不同的个体
(2)相持阶段
1)认识到这是每个人必须经历的新旧交替的困难阶段
2)让人们参与进来一起工作,给他们时间和空间去试验和测试新的想法
3)帮助人们让他们感受到自己仍受重视
4)赞美有好想法的人,即使并非每个好想法都能产生预期效果。
5)向人们传达信息,以各种方法一遍又一遍地传达
6)对考验中的想法和已做出的决定的结果提供反馈意见
(3)崭新开始
1)不要在恰当的时机到来之前急于开始
2)确保人们知道新系统中所扮演的角色
3)确保政策、程序和优先次序清晰明确,避免传递含糊的信息
4)计划庆祝新的开始,对已经做出改变者予以表扬
5)向人们传达新开始的信息,以各种方法一遍又一遍地传达。
17.4 科特的变革管理八大误区
17.4.1 误区一:过于自满
1)高估了自己推动巨大只变革的能力
2)低估了让人们走出舒适区的难度
3)未能预见他们的行为和方法可能会引发抵触而强化现状
4)冲向人们不敢踏足的地方。
5)将紧迫性与焦虑混为一谈,这反过来又会导致恐惧和阻力,利益相关方会因此故步自封
17.4.2 误区二:未能建立足够强大的指导联盟
17.4.3 误区三:低估愿景的力量
17.4.4 误区四:10倍、100倍或1000倍地放大愿景
17.4.5 误区五:允许阻挡愿景的障碍存在
1)心理障碍
2)组织结构
3)积极抵抗
17.4.6 误区六:未能创造短期收益
17.4.7 误区七:过早宣布胜利
17.4.8 误区八:忽视将变革融入企业文化
确定组织文化变革的两个关键因素是:
1)有意识地向人们展示特定行为和态度是如何影响绩效的
2)投入充足时间将变革方法嵌入后续管理
17.5 科特的重大变革八步法
除了八大误区之外,还提出阻碍变革管理的常见因素:
1)内向型文化
2)瘫痪的官僚机构
3)狭隘性政治
4)信任度低
5)缺乏团队合作
6)狂妄自大
7)欠缺领导力或者领导力失败
8)对未知的恐惧
17.5.1 树立紧迫感
在信息管理方面,促使紧迫感产生的因素有如下几种:
1)监管变化
2)信息安全的潜在威胁
3)业务连续性风险
4)商业策略的改变
5)兼并与收购
6)监管审计或诉讼风险
7)技术变革
8)市场竞争对手能力变化
9)媒体对组织或行业信息管理问题的评论
1、自满的根源
2、提高紧迫感
3、谨慎使用危机
4、中层和基层管理人员的作用
5、紧迫感的程度
17.5.2 指导联盟
要变革成功,需要避免两种特定情况
1)唯CEO论或者唯领导论
2)低可信度的委员会
指导联盟的四个关键特征:
1)职位权力
2)专家意见
3)可信性
4)领导力
出现的关键问题包括:
1)需要多少人来协助定义和指导这种变化
2)应该让谁参与或邀请谁来加入指导联盟
变革领导者需要避免削弱团队的有效性、职能和影响力的行为:
1)唱反调
2)分散注意力
3)自私自利
1、在联盟中发挥有效领导力的重要性
2、信息管理环境中的示例
3、建立有效团队
信任和共同目标
4、避免群体思维
组织可能正在陷入群体思维中:
1)无人提出异议
2)缺乏其他选择
3)不同的观点很快消失,永远消失
4)对可能挑战思维的信息未积极探寻原因
防止群体思维,重要的是:
1)鼓励所有参与者遵循科学的数据收集方法,以帮助了解问题的性质和原因
2)建立一份标准清单,评估所有决定
3)学会有效合作,避免为快速完成工作而采取群体思维的捷径
4)鼓励集思广益
5)领导要最后发言
6)积极寻找外部知识,并将他们引入会议
7)一旦确定解决方案,团队不仅要制定行动计划,还要制定一个“B计划”
5、信息管理环境中的示例
6、共同目标
17.5.3 发展愿景和战略
1、为何需要愿景(好的愿景的特质:)
1)明确性
2)动力性
3)一致性
2、有效愿景的特性
1)充满想象
2)吸引力
3)可行性
4)重点突出
5)灵活性
6)可交流性
3、建立有效愿景
1)初稿
2)指导联盟的角色
3)团队合作的重要性
4)头脑和心灵的作用
5)过程的混乱
6)时间框架
7)最终产品
17.5.4 沟通传达变革愿景
通常出现以下问题:
1)沟通无效或者沟通不充分
2)沟通不畅
3)沟通不深入
有效传播愿景的7大因素:
1)保持简单
2)使用比喻、类比和例子。
3)适用不同场合
4)重复、重复、再重复
5)以身作则
6)解释表面上的不一致
7)给予和索取
1、信息管理环境中的示例
2、保持简单
3、在多种场合中运用愿景
4、重复、重复、再重复
5、言行一致
6、信息管理环境中的示例
7、解释不一致
8、信息管理场景中的示例
9、倾听和被倾听
10、信息管理场景中的示例
17.6 变革的秘诀
变革平衡公式:C=(DVF)>R。描述了组织需要在适当的地方克服变革阻力的因素。对现状的不满程度(D)、对更好替代方案的愿景(V)、实现目标所采用的第一步行动(F)相结合,这三个因素的合力足以克服组织中的阻力(R)时,就会发生变革(C)
重要的是要意识到按按钮和拉操纵杆的内在风险:
1)组织内部对工作方式日益不满是一个强有力的工具,需要谨慎使用,以免增加阻力
2)开发未来的愿景将需要一个具体而生动的愿景
3)在描述变革第一步时,确保他们是可实现的,并明确地将变革与愿景联系起来
4)采取行动减少阻力,避免增加对变革的阻力。
17.7 创新扩散和持续变革
创新扩散:实施变革需要了解新的想法是如何在组织中传播开来的过程。是一种试图解释新思想和新技术如何、为何以及何种速度在文化中扩散的理论。认为:变革是由很小占比的创新者引起的。
17.7.1 随着创新扩散而需克服的挑战
第一个关键大挑战,是突破早期使用者阶段
第二个关键的挑战,是当创新从晚期大众进入落伍者阶段,团队需要接受的是他们不必让100%的人接受新的做事方式
17.7.2 创新扩散的关键要素
1)创新
2)沟通渠道
3)时间
4)社会系统
17.7.3 创新采纳的五个阶段
知悉
个人首先接触到创新
说服
对创新感兴趣
决策
权衡创新利弊
实施
采用创新
确认
继续使用挖掘
17.7.4 接受或拒绝创新变革的影响因素
1)可测试性
对新工具或新技术进行验证的难易程度
2)可观测性
创新可见度
17.8 持续变革
17.8.1 紧迫感/不满意感
17.8.2 构建愿景
17.8.3 指导联盟
17.8.4 相对优势和可观测性
17.9 数据管理价值的沟通
17.9.1 沟通原则
总体沟通计划和单独沟通计划都应该:
1)有明确的目标和期望的结果。
2)由支持所需结果的关键消息构成
3)为受众/利益相关方量身定制
4)通过适合受众/利益相关方的媒介传达
沟通的总体目标可以归结为:
1)通知
2)教育
3)设定目标或愿景
4)定义问题的解决方案
5)促进变革
6)影响或激励行动
7)获得反馈
8)获得支持
数据管理沟通应致力于:
1)传达数据管理项目的有形和无形价值
2)描述数据管理职能如何为业务战略和最终成果作出贡献
3)分享数据管理如何为企业降低成本、增加收益,降低风险或提高决策质量的具体示例
4)进行基础数据管理概念的教育培训,以提升组织内部对数据管理的认知。
17.9.2 受众评估与准备
1)解决问题
2)解决痛点
3)视变革为改进
4)成功愿景
5)避免专业术语
6)分享案例
7)变恐惧为行动力
17.9.3 人的因素
17.9.4 沟通计划
沟通计划要素:
信息
目标/目的
受众
风格
渠道、方法、媒介
时机
频率
材料
沟通者
预期反应
指标
预算和资源计划
17.9.5 保持沟通

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我思故我在6789

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值