目录
3.数据管理的需求是符合业务的需求,管理数据意味着对数据的质量管理
1.1引言:
从数据中获取的价值不可能凭空产生或者依赖于偶然,需要有目标、规划、协作和保障,也需要管理和领导力。
数据管理是为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制定计划、制度、规程和实践活动,并执行和监督的过程。
数据管理人员是指从事数据管理各方面的工作,并通过其工作来实现组织战略目标的任何人员。
管理数据的责任必须是由业务人员和信息技术人员共同承担。
一个组织可能没有从数据分析中获得价值,但是绝对无法在没有数据的情况下开展业务。
(为什么需要数据管理)
1.1.1业务驱动因素
信息和知识是竞争优势的关键。
数据管理的主要驱动力是使组织能够从其数据资产中获取价值。
1.1.2数据组织管理的目标
1.理解并支撑企业及其利益相关方的信息需求得到满足
2.获取、存储、保护数据和确保数据资产的完整性
3.确保数据和信息的质量
4. 确保利益相关方的数据隐私和保密性
5.防止数据和信息未经授权或被不正当访问、操作和使用
6.确保数据能有效地服务与企业增值的目标
1.2基本概念
1.2.1数据
数据是在反应客观事实方面的作用,数据也理解为以数字形式存储的信息。
要利用各类数据而不被其容量和增长速度所压倒,需要可靠的、可扩展的数据管理。
数据即是对其所代表对象的解释,也是必须解释的对象(元数据)。
语境(上下文)可视为数据的表示系统,可解释其中的数据,这就是元数据,一种特殊类型的数据。
人们表达相同概念会有不同的方式,从这些不同的选择中,数据呈现也不一致,即使在一个组织中,也常有同一个概念的多种表达方式。需要对数据架构、建模、治理、管理制度以及元数据和数据质量管理进行管理,因此需要行业级的数据标准,以提高数据一致性。
1.2.2数据和信息
数据被称为“信息的原材料”,信息则被称为“在上下文语境中的数据”。
金字塔模型用于分层描述位于自底向上的 数据 信息 知识 智慧 4者之间的关系,带来的异议有:
1.基于数据是简单存在的假设,但数据并不是简单的存在,而是要被创造出来的。
2.人们将数据到智慧描述为一个自下而上的逐级序列,但未认识到创建数据首先需要知识。
3.金字塔模型意味数据和信息是分开的,但实际是相互依赖的,数据是信息的一种形式,信息也是数据的一种形式。
要为不同的目的准备数据和信息,将形成数据管理核心原则:数据和信息都需要被管理,如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。
1.2.3数据是一种组织资产
资产是一种经济资源,能被拥有或控制、持有或产生价值。资产是可以转换为货币。数据已经被广泛认可为一种企业资产。
企业运用数据去理解他们的客户,创造出新的产品和服务,并通过消减成本和控制风险的手段来提高运营效率。
想要保持竞争力的企业必须停止基于直觉或感觉做出决策,而是使用事件触发和应用分析来获得可操作的洞察力。数据驱动包括认识到必须通过业务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。
数字化转型已经成为共识,不再是可选项。为了做出反应,业务部门必须与技术数据专业人员共同创建信息解决方案,并与相应业务团队一起工作。
1.2.4数据管理原则
数据管理和其他形式的资产管理具有共同的特性,它涉及了解一个组织拥有什么数据以及可以用它完成什么, 是利用数据资产来实现组织目标的最佳方式。
数据管理也必须平衡战略和运营需求。
原则(12条):
1.数据具有独特的属性资产
对比金融和实物资产,最明显的特点是不会产生消耗
2.数据的价值可以用经济术语来表示
数据称为资产,但还未形成这样的标准来衡量,想要对其数据做出更好决策的组织,应该开发一致的方法来量化该价值。还应该衡量低质量数据的成本和高质量数据的好处。
3.数据管理的需求是符合业务的需求,管理数据意味着对数据的质量管理
确保数据符合应用的要求是数据管理的首要目标。
4.需要元数据来管理
用于管理和如何使用数据的数据都称为元数据。
要理解和使用数据,需要以元数据的形式定义这些知识。
5.数据管理需要规划
数据在多个地方被创建且在很多存储位置间移动。因而需要做协调工作来保证最终结果的一致,需要从架构到流程进行规划。
6.数据管理须驱动信息技术决策
数据和数据管理与信息技术和信息技术管理紧密结合。确保技术服务于组织的的战略数据,而不是驱动。
7.数据管理是跨职能的工作
需要一系列的技能和专业知识,单个团队无法管理组织的所有数据。
数据管理需要技术能力、非技术能力以及协作能力。
8.数据管理需要企业级视角
数据存在与很多专业的应用程序,须有效地被应用于整个企业。这也是数据管理和治理交织在一起的原因。
9.数据管理需要多角度考虑
数据是流动的,管理须不断发展演进,跟上数据的创建、应用方式和消费者的变化。
10.数据管理也是有生命周期的管理
不同类型的数据有不通的生命周期特征,因此需要不同的管理需求,数据管理需要保持足够的灵活性,以满足不同的生命周期需求。
数据相关风险需要作为数据生命周期的一部分进行管理。
11.数据管理需要纳入数据的风险
数据的丢失、被盗、误用以及使用数据的伦理。
12.数据管理需要领导层承担责任
因数据管理是复杂的过程,各组织/部门的协调、协作和承诺。
为达到目标,不仅需要管理技巧,还需要领导层的愿景和使命。
1.2.5数据管理的挑战
1.数据与其他资产的区别
数据是无形的,其价值随时间的推移而变化。
持久的、不会磨损,容易被复制和传送。
丢失、销毁后不容易重新产生 。
容易被偷走,数据是动态的。
可以被多人同时使用,多次使用产生更多的数据。
以上差异给数据设定货币价值带来挑战性,引发数据管理问题。如定义数据所有权,列出组织中的数据量、防止数据滥用、管理数据冗余相关风险以及定义数据质量的定义与标准。
一个组织的数据对它自身而言是唯一的,如果丢失,重新产生这些数据是不可能或是昂贵的。
数据是组织了解自身的手段,也是其他资产的元资产,它为组织的洞察力提供基础。
2.数据价值
价值=获益-成本
评估数据价值的一般性成本和各类收益:
- 获取和存储数据的成本
- 数据丢失,更换数据所需成本
- 数据丢失对组织的影响
- 风险缓解成本和与数据相关的潜在风险成本
- 改进数据的成本
- 高质量数据的优势
- 竞争对手为数据付出的费用
- 数据潜在的销售价格
- 创新性应用数据的预期收入
重视数据,是数据管理的基础。
3.数据质量
确保高质量的数据是数据管理的核心目标。
数据和信息技术紧密联系,管理数据质量一直被视为“事后诸葛亮”。
对于使用数据的人来说,不能忽略数据质量问题,他们通常都是人为数据,是可靠的,直到他们发现数据错误了。一旦他们不再相信数据可靠,重新获得信任变的很困难。
在运用数据的过程中进行学习,并进一步创造价值。
低质量数据是隐藏的,间接的,难测量的。质量数据代价高昂,会对决策产生负面影响,处理低质量数据的支出占收入的10%-30%
低质量数据主要来源:
- 报废和返工
- 解决方法和隐藏的纠正过程
- 组织效率的低下和生产力低下
- 组织冲突
- 工作满意度低
- 客户不满意
- 机会成本,包括无法创新
- 合规成本或罚款
- 声誉成本
高质量数据的作用包括:
- 改善客户体验
- 提高生产力
- 降低风险
- 快速响应商机
- 增加收入
- 洞察客户、产品、流程和商机,获得竞争优势
数据管理不是一次性的,高质量数据需要计划并执行,以及拥有将质量构建到流程和系统中的概念。数据管理功能影响数据质量高低。
高质量的数据带给组织最大的价值是——可获得、相互关联、完整、准确、一致、及时、适用、有意义和易于理解。
4.数据优化计划
从数据中获取价值不是偶然的,需要进行多种形式的规划,要将数据视为一种产品。
数据优化涉及点:
- 数据也许被视为独立于业务流程存在
- 业务流程与支持他们的技术之间的关系
- 系统的设计和架构及其所生成和存储的数据
- 使用数据的方式可能被用于推动组织战略
治理难点:通常存在组织,时间,金钱方面的长期压力,会阻碍计划执行。好的数据规划需要针对架构、模型、功能设计的战略路径。也取决于业务和it领导间的战略协作及单个项目的执行力。
组织在执行战略时必须平衡长期和短期目标,才会获得有效决策。
5.元数据和数据管理
组织需要元数据去管理数据资产。元数据包括业务、技术元数据,还包括元数据的操作,以及嵌入在数据架构、数据模型、数据安全需求、数据集成标准和数据操作流程的元数据。
元数据描述了一个组织拥有什么数据?它代表什么?如何被分类?来自哪里?如何移动的?如何在使用中演进?谁可以用以及数据质量的高低等。
元数据以数据形式构成的,需要进行严格的管理。
元数据是全面改进数据管理的起点。
6.数据管理是跨职能的工作
数据生命周期中,需要不同的团队进行不同的管理。
挑战在于,数据管理需要的系统规划的设计技能、硬件和软件的技术技能、数据分析理解和解释数据的技能、定义和模型达成共识的言语技能、发现客户商机、实现战略思维等这一系列技能和观点的人认识到各部分如何结合到一起,从而能够协作并朝着共同的目标努力。
7.建立企业视角
数据是组织中的“横向领域”之一 ,它跨越不同垂直领域。
数据不仅对组织是独特的,有时对部门或组织的其他部分也是独特的。
数据治理变的越来越重要的原因之一是帮助组织跨垂直领域做出数据决策。
8.数据管理需要多角度思考
使用数据必须考虑不同国家和行业的法律和规范要求。
了解数据的潜在用途有助于更好地规划数据生命周期,并获得高质量数据。
9.数据生命周期
组织需要用好并为数据生命周期进行规划,以组织如何用好数据为数据管理的目标,这是战略性的管理要求。
数据的生命周期是基于产品的生命周期,不应该与系统开发生命周期混淆。
数据的生命周期包括创建或获取、移动、转换和存储数据并使其得以维护和共享的过程,使用数据的过程,以及处理数据的过程。
数据很少是静态的,管理数据涉及一系列内部互动的过程,与数据生命周期保持一致。
数据不仅具有生命周期,而且具有血缘。
一个组织越了解数据生命周期和血缘关系,管理数据的能力越强。
数据管理对数据生命周期关注的几个重要点:
- 创建和使用时数据生命周期的关键点。对数据进行管理必须在理解如何生成或获取数据以及如何使用数据的情况下执行。生产数据需要成本,当数据被消费或应用时,它才有价值。
- 数据质量管理必须贯穿整个生命周期,数据质量管理是数据管理的核心。因为数据质量水平的高低可能会受到一系列生命周期的影响。
- 元数据质量管理必须贯穿整个数据生命周期。元数据也是数据的一种形式,因为元数据在管理其他数据,所以元数据质量也要同其他数据质量一样,进行管理。
- 数据安全和相关风险,需要保护的数据必须在生命周期中受到保护。
- 生命周期的重点关注的是关键数据,并将冗余的、过时的、碎片化的,降至最低。
10.不同种类的数据
按数据类型分类,如交易数据、参考数据、主数据、元数据或类别数据、源头数据、事件数据、详细交易数据。
按数据内容分类,(数据域、主题域)、数据所需的格式或保护级别、存储访问的方式和位置。
不同类型具有不同的需求,在组织中扮演不同角色,因此数据管理工具都集中在分类和控制方面。例如主数据与交易数据的用途不同,管理需求也不同。
11.数据和风险
数据不仅代表价值,也代表风险,数据风险在于可能被误解和误用。
监管者和立法者越来越关注信息使用中潜在的滥用问题。
当数据风险没有得到管理时,导致信息管理对资产负债表的影响越来越大。
12.数据管理和技术
数据管理范围广泛,需要技术和业务技能。
数据管理策略受到技术的强烈影响,成功的管理需要对技术做出正确的决策。
组织需要了解技术对数据的影响,已防止技术诱惑推动他们对数据的决策,而是与业务战略一致的数据应该推动有关技术的决策。(技术服务于信息,而不是作为驱动)
13.高效的数据管理需要领导力和承诺
组织有机增长的最佳机会在于数据。
人们不知道组织拥有什么数据,或者对业务的关键数据是什么。他们混淆了数据和信息技术,并对两者进行了错误的管理。在没有关于数据的战略蓝图下,会增加数据的管理难度。想要变好,需要有远见、计划和改变的意愿。
一个对组织成功的至关因素是:坚定的领导和组织中的各级人员的参与。
成功的数据管理必须由业务驱动,而不是由IT技术驱动的。
1.2.6数据管理战略
战略是一组选择和决策,他们共同构成了实现高水平目标的高水平行动过程。
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。
数据战略必须来自对业务战略固有的数据需求的理解。
数据战略需要一个支持性的数据管理战略—— 一个维护和改进数据质量、完整性、访问和安全性的规划,同时降低已知和隐含的风险。
CDO在数据治理委员会成立前会起草一份初步的数据战略和数据管理战略。
数据管理战略的组成包括:
- 令人信服的数据管理愿景
- 数据管理的商业案例总结
- 指导原则、价值观和管理观点
- 数据管理的的使命和长期目标
- 数据管理成功的建议措施
- 符合SMART原则(具体、可衡量、可操作、现实、有时间限制)的短期(12-24个月)数据管理计划目标
- 对数据管理角色和组织的描述,以及对其职责和决策权的总结
- 数据管理程序组件和初始化任务
- 具体明确范围的优先工作计划
- 一份包含项目和行动任务的实施路线图草案
数据管理战略规划的可交付成果包括:
- 数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
- 数据管理范围声明。包括规划目的和目标(通常3年),以及负责实现这些目标的角色、组织和领导。
- 数据管理实施路线图。确定特定计划、项目、任务分配和交付里程碑。
1.3数据管理框架
数据管理涉及一组相互依赖的功能,每个功能都有自己的目标、活动和职责。
数据管理人员需要考虑从抽象的企业资产中获取价值所固有的挑战、平衡战略和运营目标、特定业务和技术要求、风险和合规性需求,并理解数据所包含的内容以及数据是否高质量。以上所涉及的内容需要一个框架来全面了解数据管理,并查看其组件之间的关系,因为组件之间相互依赖、需要协调一致,所以组织中各方面的管理人员需要紧密协作才能从数据中获得价值。
展示组织管理数据的高阶关系模型:
- 战略一致性模型
- 阿姆斯特丹(Amsterdam)信息模型
以DAMA-DMBOK重新排列组件,更好地理解和描述他们之间的关系:
- DAMA车轮图
- 环境因素六边形图
- 知识领域语境关系图
通过以上描述了DAMA定义的数据管理知识领域,并解释了视觉表现。
1.3.1战略一致性模型(SAM)
战略一致性模型抽象了各种数据管理方法的基本驱动因素。模型的中心是数据和信息之间的关系。
1.3.2阿姆斯特丹模型(AIM)
与战略一致性模型一样,从战略角度看待业务和IT一致性。
以上2个模型都是从横轴(业务/IT战略)和纵轴(业务战略/业务运营)两个维度描述组件之间的关系。
1.3.3DAMA-DMBOK框架
DAMA车轮图——呈现数据管理知识领域的概要
以数据治理为管理活动的中心。
数据治理(车轮的核心)是实现功能内部一致性和功能间平衡所必需的,其他知识领域围绕车轮平衡。
数据管理涉及知识领域为(书中3-13章,共计11个部分):
数据治理-建立一个满足企业需求的数据决策体系,为数据管理提供指导和监督
数据架构-定义了组织战略数据资产蓝图,建立战略性数据需求及满足总体设计
数据建模和设计-以数据模型的精确形式,进行发现、分析、展示和沟通数据需求
数据存储和操作-以数据价值最大化为目标,包括存储数据的设计、实现和支持活动以及从生命周期中,从计划到销毁的各种操作活动
数据安全-数据隐私和机密性得到维护,不被破坏,数据被适当访问
数据集成和互操作-数据存储、应用程序和组织之间的数据移动和整合相关过程
文件和内容管理 -管理非结构化媒体数据和信息的生命周期过程。包括计划,实施和控制活动,与其是支持法律法规遵遵从性要求所需的文档
参考数据和主数据 -核心共享数据的协调和维护,使关键业务实体的真实信息以准确、及时和相关联的方式在各系统间一致使用
数据仓库和商务智能-包括计划、实施、控制流程来管理决策支持数据,使知识工作者通过分析报告获取价值
元数据 -规划、实施和控制活动,以便能够访问到高质量的集成元数据
数据质量-包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。
以上知识领域都是成熟数据管理的组成部分,但根据各组织的需求,他们可能在不同的时间实现。
环境因素六边形图——显示人、技术、过程间的关系,是理解语境关系图的关键(展示知识领域结构的组成部分)
环境因素六边形的中心是目标和原则。
目标和原则为人们如何执行活动以及有效地使用工具成功进行数据管理提供了指导。
知识领域语境关系图——描述了每个知识领域的细节,是基于产品管理的生命SIPOC图的概念(百度释义:SIPOC组织系统模型,是一门最有用而且最常用的,用于流程管理和改进的技术。是过程管理和改进的常用技术,作为识别核心过程的首选方法)
语境关系图的中心是活动,这些活动生产了满足利益相关方需求的可交付成果。
语境关系图的组成部分:
- 定义,为本节知识领域的定义
- 目标,描述知识领域内指导活动执行的目的、基本原则
- 活动,它是实现目标所需的行动和任务,一些活动还分为子活动
活动分为4类:
- 计划活动(P)为实现数据管理目标设定的战略和战术工作,计划活动为经常性活动
- 控制活动(C) 持续确保数据质量、存取和使用的完整性、可靠性、安全性
- 开发活动(D)围绕系统开发的生命周期(SDLC)开展分析、设计、构建、测试、准备和部署等活动
- 运营活动(O)支持系统和流程的使用、维护和增强,通过这些系统和流程进行数据的存取和使用
- 输入,它是每个知识领域启动其活动所需的有形事物。许多活动需要相同的输入
- 交付成果,知识领域内活动的产出,每个只能部门负责生产的有形事物。可能以其自身或其他活动为的输入目的的。
- 角色和职责,描述个人和团队为知识领域内的活动做出的贡献,聚集重点是大多数组织所需的角色组。个人角色是根据技能和资格要求来定义的。许多角色是跨职能的。
- 供给者,负责提供或允许访问活动输入的人员
- 消费者,直接受益与活动产生主要交付成果的消费方
- 参与者,执行、管理或批准知识领域活动的人员
- 工具,实现知识领域目标的应用程序和其他技术
- 方法,用于知识领域没执行活动和产生可交付成果的方法和程序(包括共同约定、最佳实践建议、标准和协议以及新的合适的替代方法)
- 度量指标,衡量或评估绩效、进度、质量、效率、或其他影响的标准,这些指标用于定义每个知识领域内完成的工作可量化的事实。
1.3.4DMBOK金字塔(Aiken)
黄金金字塔(图1-8)只是一个更大结构的顶部,一个巨大基础之上的顶峰。用来描述组织演化的情况。
使用此框架,组织可定义一种演化路径,达到可靠的数据和流程状态,支持战略业务目标的实现。
- 第一阶段:组织购买包含数据库功能的应用程序。意味着以此作为数据建模、设计、数据存储和数据安全的起点。同时还需要做数据集成和交互操作方面的工作。
- 第二阶段:一旦组织开始使用应用程序,将面临数据质量方面的挑战。但获得更高的数据质量需要可靠的元数据和一致的数据架构,用它们来说明不同系统的数据是如何协同工作的。
- 第三阶段:管理数据质量、元数据和架构需要严格地实践数据治理,为数据管理活动提供体系性支持。数据治理还支持文件和内容管理、参考数据管理、主数据管理、数据仓库和商务智能等战略计划的实施。这些黄金金字塔中的高级应用都会得到充分支持。
- 第四阶段:组织充分利用了良好管理数据的好处,并提高了其分析能力(高级实践:数据挖掘,大数据分析)。
Aiken的金字塔是基于DAMA车轮图构建出来的,展示了各个知识领域的关系,各领域间并非都可以互换,他们有多种相互依赖的关系。
金字塔有两个驱动因素:
- 建立一个基础,每个组件都出现在合适的位置上,彼此之间相互支持
- 某些矛盾的观点认为,这些组件可以任意顺序出现
1.3.5DAMA数据管理框架的进化
金字塔中描述的是一个组织如何向更好的数据管理实践发展的路径。
图1-9 学习DAMA知识领域的另一种方法是探索他们之间的依赖关系——苏伊格恩斯框架。
图1-10 DAMA车轮图的第三种替代方案,借鉴了体系结构概念,呈现了DAMA知识领域之间的一组关系。该框架从数据管理的指导目标开始:使组织能够像从其他资产中获取价值那样,从数据资产中获取价值。
派生价值需要生命周期管理。这包括:为可靠、高质量、的数据进行规划和设计;建立过程和功能来使用和维护数据,在各种类型的分析活动以及这些过程中使用数据,以提高数据价值。
只关注直接生命周期功能的组织,从其数据中获得的价值少于通过基础活动和治理活动支持数据生命周期的组织。如数据风险管理、元数据管理和数据质量管理等这些基础活动,跨越了生命周期,它们促进决策更加有效和数据更易于使用。如果管理工作能很好地执行,那么数据维护成本就会降低,数据消费者对它更有信心,并且使用数据的机会也会扩大。
DAMA数据管理框架也被描述为另一种形式的DAMA车轮图。数据治理范围内的应用活动围绕着数据管理生命周期内的各项核心活动进行。图1-11
核心活动位于框架中心,包括元数据管理、数据质量管理和数据结构定义。
生命周期管理活动可以从计划的角度(风险管理、建模、数据设计、参考数据管理等)也可以从实现角度(数据仓库、主数据管理、数据存储和操作、数据集成和互操作、数据开发技术)。
生命周期管理活动源于数据的使用:主数据使用、文件和内容管理、上午智能、科学技术、预测分析、数据可视化。许多情况下基于现有数据进行增强性开发,获取更多洞察,产生更多的数据和信息,数据货币的机会可以确定源于数据的使用。
DAMA数据管理框架是为了期望提供额外的数据管理视角,这些框架成为数据管理社区和利益相关方之间沟通的有力工具。
1.4DAMA和DMBOK
DAMA的使命:
- 为企业数据管理实践提供功能框架,包括指导原则、广泛采用的实践、方法和技术、功能和角色、可交付成果和度量指标
- 建立数据管理概念词汇表,作为管理人员的最佳实践基础
- CDMP认证的参考指南
DMBOK是围绕数据管理框架(DAMA车轮图)中的11个知识领域构建的。