2.7_1 数据治理 风气整顿之 — 我先带头说人话

相关链接



为什么要人话

  谈起数据就绕不开数据治理,做了ETL和BI也有几年了,经常听到这些词,听起来像绕口令。什么数据元、元数据、数据标准、标准数据、主数据、参考数据 …bla…bla…bla… 感觉好像什么都说了,又好像什么都没说。

  造词这个事儿其实早就有了,互联网行业里,造词->拉投资->跑路,到现在还有几个人记得贾跃亭的“生态化反”。就连玩狼人杀也会经常听到这些黑话:金水、银水、查杀、焊跳、警上警下。狼人杀造词倒还ok,可以理解。毕竟每个人发言时间有限,新人劝退也没关系,就当是个老玩家们圈地自嗨的游戏。

xxxxxxxx内容自行脑补(不删CSDN不给过审🙂)。如都2022年了,什么时候大家能学会说人话?

  很多黑话释义也没有什么官方统一的标准,各说各的。下面按照自己的理解、边学习边总结:

在这里插入图片描述


一、数据治理历史背景(五年计划)

  国内各行业的发展,都离不开五年计划纲要,但首先要了解什么是 “五年计划”。

  五年计划:是中国国民经济计划的重要部分,属长期计划。主要是对国家重大建设项目、生产力分布和国民经济重要比例关系等作出规划,为国民经济发展远景规定目标和方向。(百度百科说的)

  从企业的角度来看,按照五年计划进行发展,顺应时代潮流,达到相应标准还可以领取到各种政府补贴。

十五计划:全称 第十个五年计划,施行时间 2001年-2005年。2001年3月15日第九届全国人民代表大会第四次会议批准。
     开始大力推进信息化建设。
     "十五“百度百科链接"十五“内容链接

十一五计划:全称 第十一个五年计划,施行时间 2006年-2010年。2006年3月14日第十届全国人民代表大会第四次会议批准。
     实现从分散建设向集中建设的跨越,大幅提升了运营效率和精细化管理水平。
     "十一五“百度百科链接"十一五“内容链接

十二五计划:全称 第十二个五年计划,施行时间 2011年-2016年。2011年3月14日第十一届全国人民代表大会第四次会议批准。
     持续完善提升信息系统功能,促进信息系统广泛深入的应用。
     "十二五“百度百科链接"十二五“内容链接

十三五计划:全称 第十三个五年计划,施行时间 2016年-2021年。2016年3月16日第十二届全国人民代表大会第四次会议批准。
     全面推进信息集成共享,增强企业价值创造能力。
      "十三五“百度百科链接"十三五“内容链接

十四五计划:全称 第十四个五年计划,施行时间 2021年-2024年。2021年3月11日第十二届全国人民代表大会第四次会议批准。
     集团级数据驱动智能化发展,数字化转型推进。
     "十四五“百度百科链接"十四五“内容链接

热词统计(出现次数)
信息化数据大数据数据库数字化数字化转型
2001-2005 十五计划(点击查看详情)1520210
2006-2010 十一五计划(点击查看详情)1530050
2011-2015 十二五计划(点击查看详情)1800000
2016-2020 十三五计划(点击查看详情)164320100
2021-2025 十四五计划(点击查看详情)953102256

  首先,经过多年的信息化,大部分公司都上了 ERPOACRM 等系统,并且有了数据。但这时的系统存在各种数据治理问题,而且数据往往都是一座座孤岛,各部门各司其职。

说人话系列


OA : 主要是处理审批等管理层面的相关内容,用于进行企业的内部管理。
   英文全称是Office Automation,中文名字是 办公自动化

CRM:主要是处理以“客户”为中心的相关内容,用于对客户及订单的管理。
   英文全称是Customer Relationship Management,中文名字是 客户关系管理

ERP:重在对企业内部的业务流程进行系统化的管理,实现内部的信息共享。一般指三方面的内容:
    1) 生产控制(计划、制造)
    2) 物流管理(分销、采购、库存管理)
    3) 财务管理(会计核算、财务管理)。
    英文全称是Enterprise Resource Planning,中文名字是 企业资源规划


假设场景销售罗翔 准备和 客户张三 谈生意

  1. 销售罗翔OA 系统中填写出差申请。 上司赵四 同意审批。申请流转到 财务王八 处,预留出差、业务费所需资金。
  2. 销售罗翔CRM 系统中创建 客户张三 的信息。并不断更新状态。
  3. 客户张三 下单,在 ERP 系统中创建订单,生产部开始生产产品,收到 客户张三 款项后, 财务王八 在ERP录入收到的款项,安排产品出库。

实际问题 :现在需要统计各部门资金申请总额(OA),部门客户签单率(CRM、ERP)、部门客户订单总金额(CRM、ERP)、按区域统计客户下单总金额(CRM、ERP)。首先需要在 OACRMERP 三个系统中,关联销售人员在不同系统中的账号,再根据销售人员所在部门进行聚合。实施过程中发现了各种问题:

  1. 数据孤岛:一些指标需要跨系统关联取数,而现在三个系统的数据分布在三个数据库中。想要取数需要首先搭建数仓,形成统一数据源。
  2. 数据架构:缺少数仓架构建设能力,数仓建设混乱。好的数据架构应能够实现数据复用,保障数据一致性,有着清晰数据结构和血缘。
  3. 数据安全问题:三个系统的数据库均可以通过外网直接访问。
  4. 数据规范问题:三个系统中,账号登录id并不相同(销售罗翔 在OA系统账号id为 fawaikuangtu,CRM系统账号id为 luoxiang,ERP系统账号id为 lx),id不同,无法直接关联。
  5. 数据规范问题:ERP、CRM、OA系统均存在不同程度的库表命名不规范、指标定义不统一、表和字段没有注释或错误注释等问题,造成数据难以有效管理的问题。
  6. 数据质量问题销售罗翔 未按规定录入客户信息,客户信息缺失,无法按照区域统计客户下单总金额。
  7. 数据质量问题财务王八 录入款项时,手抖输入了负值、零、空值等,都属于脏数据。
  8. 数据质量问题财务王八 未按规定操作,未收到款项就先安排产品出库,之后也未补录款项,统计时才发现相应表中存在异常数据。

  随着大数据的发展,推荐算法用户画像广告定向投放 的兴起,开始逐渐意识到"数据资产"的重要性。(十三五计划)

  数字化转型要做的就是,打破壁垒,实现跨部门的系统互通、数据互联,为业务赋能,为决策提供精准洞察。(十四五计划)

说人话系列


数字化
  数字化,即是将许多复杂多变的信息转变为可以度量的数字、数据,再以这些数字、数据建立起适当的数字化模型,把它们转变为一系列二进制代码,引入计算机内部,进行统一处理。

数字化转型
  数字化转型(Digital transformation)是建立在数字化转换(Digitization)、数字化升级(Digitalization)基础上, 进一步触及公司核心业务,以新建一种商业模式为目标的高层次转型。
  数字化转型(Digital transformation)是开发数字化技术及支持能力以新建一个富有活力的数字化商业模式(见下图)。
在这里插入图片描述
  数字化转型表明,只有企业对其业务进行系统性、彻底的(或重大和完全的)重新定义——而不仅仅是IT,而是对组织活动、流程、业务模式和员工能力的方方面面进行重新定义的时候,成功才会得以实现。
  2020年5月13日下午,国家发展改革委官网发布“数字化转型伙伴行动”倡议。倡议提出,政府和社会各界联合起来,共同构建“政府引导—平台赋能—龙头引领—机构支撑—多元服务”的联合推进机制,以带动中小微企业数字化转型为重点,在更大范围、更深程度推行普惠性“上云用数赋智”服务,提升转型服务供给能力,加快打造数字化企业,构建数字化产业链,培育数字化生态,形成“数字引领、抗击疫情、携手创新、普惠共赢”的数字化生态共同体,支撑经济高质量发展。
  2021年8月,湖南省工信厅公布《湖南省制造业数字化转型“三化”重点项目名单(2021年第一批)》,来自中联重科、威胜集团、蓝思科技、中车株机等企业的385个项目入选,其中数字化改造项目275个、网络化协同项目66个、智能化升级项目44个。

  简单来说,数字化转型,就是要进行大范围产业升级、发展数字经济、降本增效。数字化转型最终的产物是数字化产品。如果一家企业,能够通过“数据资产”更好地盈利或者提升企业的效率,就可以说实现了真正的数字化

  数据入仓/湖-> 数据模型 -> 数据分析 -> 输出展示、数据异常数据等

数字化产品

  首先,利用大数据、人工智能、区块链等创新技术,帮助企业搭建管理驾驶舱,轻松获取企业的核心数据,构建企业的动态数据模型,并结合行业大数据的高效环比,洞察经营短板,及时预警异常数据,降低企业发展风险,减少企业经营不确定性,帮助企业提质增效,建立核心竞争力,夯实企业发展的根基。
  其次,动态记录的企业经营数据,通过区块链技术存储,可以形成真实有效、不可篡改的经营数据链,成为企业的数字信用凭证。伴随着快速发展扩张,这种数字信用体系,将成为企业在融资中的强力信用凭证,大大提高企业的资金周转成功率。

  说了这么多,和数据治理又有什么关系呢?

  低质量的数据会耗费时间和资金,由于国内信息化兴起时间大约在从"十五计划"(2001-2005)开始,第一批信息化的企业,如果系统并且坚持用到了现在的系统大多数非常难用。底层的 数据库设计不规范、脏数据 等问题,也给现在的数字化转型增加了许多难度。随着大数据时代到来,数据存储的成本也越来越高,意味着低质量数据的额外成本也在提升。想要数字化转型,先要解决数据质量的各种问题。

  数字化转型,治理先行数据治理本身不是目的,而是实现数字化转型的一种手段

  2020年9月21日,国务院国资委印发《关于加快推进国有企业数字化转型工作的通知》,通知中明确提出企业构建 数据治理 体系的的要求。

  并且该通知是在2021年3月11日第十二届全国人民代表大会第四次会议批准《十四五计划》之前就已经下发的。
在这里插入图片描述

  第一批响应政策的国企、央企,往往没有技术部门,信息化系统也是采购来的,自身缺乏数字化转型能力。需要聘请外部的咨询公司来完成 数据治理体系 的搭建。但数字化转型这东西难以量化,自己不懂,最终又如何来评估项目完成的质量呢?这时有个 数据治理指导框架 的重要性就体现出来了。

评估项目完成质量 :项目实施完毕 -> 聘请相关机构完成《DCMM贯标评级》-> 获取相应评级证书(1-5级)。评级的结果就作为项目验收的标准。同时,DCMM证书在国内也属于官方权威认证,来认定企业数字化转型的程度。


二、数据治理指导框架


2.1 总体介绍

目前常见的数据治理指导框架有:DAMADCMMDGI白皮书。其中:

 1) DAMADCMM 是数据管理和应用能力指导框架,数据治理只是其指标体系中的一部分。

 2) DCMM 属于国家认证,也是国内目前最主流、最全面的指导框架。相比其他指导框架,通过DCMM评估可以对标业界最佳实践,且目前受到各种政策扶持,可以作为主要了解内容。

 3) DAMA 属于民间组织协会。相比之下,国家队给出的DCMM更有权威性。

 4) DGI 是针对数据治理的指导框架。

 4) 白皮书 是针对数据资产管理的指导框架。


DAMA:国际数据管理协会 - 《DAMA数据管理知识体系指南》
    DM-BOK 1.0中文版 - 2012年;
    DM-BOK 2.0中文版 - 2020年3月;11个数据管理职能领域,7个基本环境要素。

DAMA全称:Data Management International

在这里插入图片描述 国际数据管理协会(DAMA International)

  DAMA International成立于1980年,是一个由技术和业务专业人员组成的国际性数据管理专业协会,作为一个非营利的机构,独立于任何厂商,旨在世界范围内推广并促进数据管理领域的概念和最佳实践,为数字经济打下理论和实践基础。全球会员近万人。http://www.dama.org


在这里插入图片描述 国际数据管理协会中国分会(DAMA China)

  DAMA China是个非营利性、专注数据管理的专业组织。旨在交流国际、国内在数据管理领域中的最新
进展,共享业界的实践、经验和成果,促进我国数字化水平的不断提高和创新。http://www.dama.org.cn

《DAMA数据管理知识体系指南》(DM-BOK2)

  DMBOK 针对数据管理给出权威性的介绍,做出了对数据管理的功能、术语和最佳实践方法的标准行业解释。有 DAMA-DMBOK1 理论框架,后升级为 DAMA-DMBOK2 理论框架。
  由11个数据管理职能领域(车轮图)、7个基本环境要素(环境因素六边形图) 对每个职能进行描述,共同构成“DAMA数据管理知识体系”。


DCMM:工信部 - 国家标准《GB/T36073-2018 数据管理能力成熟度评估模型》- 2018年10月1日起实施。8个核心能力,29个能力项,445个标准。

DCMM全称:Data management Capability Maturity Model

中华人民共和国工业和信息化部(工信部)

  根据2008年3月11日公布的国务院机构改革方案,组建的国务院组成部门。
  工业和信息化部主要职责为:拟订实施行业规划、产业政策和标准;监测工业行业日常运行;推动重大技术装备发展和自主创新;管理通信业;指导推进信息化建设;协调维护国家信息安全等。同时通过评估可以发现存在的问题,指明发展方向。

《DCMM数据管理能力成熟度评估模型》

  围绕 一级域 - 8个核心能力二级域 - 29个能力项(由8个核心能力拆解得到),三级域 - 445个标准(由29个能力项拆解得到)进行DCMM贯标评估。按照流程:提交申请 -> DCMM评估 -> 制定报告 -> DCMM颁发证书。证书分为5个等级,根据申请评级的不同,总费用(咨询费+审核费)约为20~50万元不等。同时根据当地政策,可享受政府补贴、项目实施补贴。


DGI:国际数据治理研究所 - 《数据治理框架》 - 2004年

DGI全称:Data Governance Institute

国际数据治理研究所

  Data Governance Institute,简称DGI。是业内最早,世界上最知名的研究数据治理的专业机构。DGI早在2004年就推出了DGI数据治理框架,为企业数据管理的战略决策和采取行动的提供最佳实践和指南。

《数据治理框架》

  主张4W1H原则,数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行。该模型描述了为什么需要数据治理(Why),数据治理治什么(What),谁参与数据治理(Who),什么时候开展数据治理(When),如何开展数据治理(How)。


白皮书:信通院 - 《数据资产管理实践白皮书》5 .0版 - 2021年12月20日发布。是从2017年起连续发布的第五年。8个管理职能和5项保障措施。

中国信息通信研究院(信通院)

  前身为邮电部邮电科学研究院(始建于1957年),1994年正式组院,现为工业和信息化部直属科研事业单位,是国家在信息通信领域(ICT)最重要的支撑单位以及工业和信息化部综合政策领域主要依托单位。

《数据资产管理实践白皮书》

  以政府机构和企事业单位作为研究主体(侧重企业),以数据资产赋能业务发展作为核心逻辑,阐述数据资产管理的概念内涵、演进历程、发展现状,重点讨论数据资产管理的活动职能、保障措施、实践步骤等,并对数据资产管理进行总结与展望。


2.2 DAMA

《DAMA数据管理知识体系指南》(DM-BOK2)

  DMBOK 针对数据管理给出权威性的介绍,做出了对数据管理的功能、术语和最佳实践方法的标准行业解释。有 DAMA-DMBOK1 理论框架,后升级为 DAMA-DMBOK2 理论框架。
  由11个数据管理职能领域(车轮图)、7个基本环境要素(环境因素六边形图) 对每个职能进行描述,共同构成“DAMA数据管理知识体系”。

2.2.1 指南的目标

指南的目标


1. 对数据管理职能,达成一个普遍适用的看法共识。
2. 提供常用的数据管理职能、交付成果、角色和其它术语标准的定义。
3. 确定数据管理的指导原则。
4. 概述普遍接受的良好实践、广泛采用的方法和技术以及重要的可选办法。
5. 简明扼要地识别共同的组织和文化问题。
6. 澄清数据管理的范围和界限。
7. 引导读者接触更多的资源来加强对数据管理的理解。

2.2.2 适合的读者群体

适合的读者群体


1. 企事业单位信息化主管领导(CIO)。
2. 企事业单位数据管理主管领导(CDO)。
3. 企事业单位IT人员。
4. 企事业单位数据管理团队及专、兼职数据管理人员、数据相关项目的解决方案提供者。
5. 企事业单位各业务职能部门数据管理专员。
6. 会计事务师所的从业人员
7. 咨询公司的风险、合规、管理、数据治理从业人员。
8. 律师事务所在合规、权益等方面的律师及从业人员。
9. 经过认证的和有抱负的数据管理专业人士
10. 负责开发和提供数据管理课程的教育工作者。
11. MBA和信息管理专业本科及以上学生。
12. 政府领域数据管理领域的研究人员。

2.2.3 数据管理职能域(11个)

数据管理职能域(11个)


在这里插入图片描述

1. 数据治理(Data Governance)
  通过建立一个能够满足企业数据需求的决策体系,为数据管理提供指导和监督

2. 数据架构(Data Architecture)
  定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计
3. 数据建模和设计(Data Modeling and Design)
  以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程
4. 数据存储和操作(Data Storage and Operations)
  以数据价值最大化为目标,在整个数据生命周期中,从计划到销毁的各种操作活动
5. 数据安全(Data Security)
  确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问
6. 数据集成和互操作(Data Integration and Interoperability)
  包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程
7. 文档和内容管理(Document and Content Management)
  用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档
8. 参考数据和主数据(Reference and Master Data)
  包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用
9. 数据仓库和商务智能(Data Warehousing and Business Intelligence)
  包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值
10. 元数据(Metadata )
  包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)
11. 数据质量(Data Quality)
  包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性

2.2.4 理论框架(11个职能域、7个环境要素)

DAMA-DMBOK2 理论框架

在这里插入图片描述


  由车轮图(由11个数据管理职能领域)和 环境因素六边形图 (由7个基本环境要素对每个职能进行描述)”共同构成“DAMA数据管理知识体系”。

11个职能域数据治理数据架构数据建模和设计数据存储和操作数据安全数据集成和互操作文档和内容管理参考数据和主数据管理数据仓库与商务智能元数据管理数据质量管理

7个环境要素目标与原则组织与文化工具活动角色和职责交付成果技术


2.2.5 DMBOK1、2对比

数据管理知识体系

在这里插入图片描述

1.章节内容变化:DMBOK2去掉了数据开发章节,增加了数据建模和设计数据集成和互操作性,同时增加大数据和数据科学等章节。

2.数据治理嵌入开发流程:强调数据治理融入系统设计和开发过程中,让数据治理成为保证系统质量和数据质量的有力保障,其贯彻系统建设的全过程,数据治理落地性更强。

3.知识体系发生变化数据架构数据建模和设计两部分内容重要性加强了,数据标准包括在数据模型设计中。强调数据设计及在设计过程中落标。

4.数据治理理念发生变化事后治理 - >事先管控被动治理 -> 主动治理理论 -> 实战纯粹治理 -> 治理+服务扩展转变传统数据 -> 大数据


数据管理必备因素


在这里插入图片描述

1.六边形内容变化实战和方法主要交付物两部分内容合并为交付管理,增设工具内容。

2.落地性更强:在介绍10个知识体系中,每个部分都分别详细介绍了落地方法及工具情况,便于落地。

3.强调重点发生变化:DMBOK1以理论知识体系为主,在实战和方法主要交付物两部分,强调的是方法论,而DMBOK2强调交付和工具的重要性。

4.技术和流程性更强:数据治理必须嵌入到业务开展、系统建设、数据应用流程中,并通过工具来支撑使用,工具的介绍篇章及份额明显增加。

2.2.6 CDMP证书(CDGA、CDGP)

参考文章:一文看懂DAMA国内认证
参考文章:DAMA中国 CDGA/CDGP 认证考试通关心得

  据我所知,这个证书好像只有三年有效期,每次考试不论通过与否,均需要缴纳2000元报名费用。含金量我也不是很清楚,就不做过多评价了。

CDMP证书


  数据管理专业人士认证 (Certified Data Management Professional,CDMP)

  证书授予那些具备以下综合条件资格的人员,这些条件包括教育程度、技能经验和基于测试的专业知识考试。 证书分为专家人士(Mastery)和从业人士(Practitioner)两级。 为了维护认证状态并持续使用证书,需缴纳年度认证费用,加3年的继续教育和专业活动要求。

  数据管理国际协会 (DAMA) 授权数据管理专业人士认证过程和 CDMP 的商标给计算机专业认证协会 (The Institute for Certification of Computing Professionals,ICCP) 进行管理考试和再认证工作。

CDMP等级介绍
在这里插入图片描述


CDMP本土化(CDGA、CDGP)


  DAMA中国以DAMA数据管理知识体系为基础,结合国内实际需求,对CDPM的考试语言、 考试形式、考试内容、证书类型等进行了适当本地化重构。
  重构后认证考试分为数据治理工程师认证(简称CDGA)、数据治理专家认证(简称CDGP)两种,考试试卷为中文。

在这里插入图片描述

2.3 DCMM

《GB/T36073-2018 数据管理能力成熟度评估模型》
参考文章:深度解析DCMM数据管理成熟度模型
参考文章:一分钟带你走进DCMM
参考文章:DCMM认证评估介绍

《DCMM数据管理能力成熟度评估模型》

  围绕 一级域 - 8个核心能力二级域 - 29个能力项(由8个核心能力拆解得到),三级域 - 445个标准(由29个能力项拆解得到)进行DCMM贯标评估。按照流程:提交申请 -> DCMM评估 -> 制定报告 -> DCMM颁发证书。证书分为5个等级,根据申请评级的不同,总费用(咨询费+审核费)约为20~50万元不等。同时根据当地政策,可享受政府补贴、项目实施补贴。


2.3.1 术语和定义

《GB/T36073-2018 数据管理能力成熟度评估模型》- P5

术语和定义


1.数据管理能力(data management capability)
  组织和机构对数据进行管理和应用的能力
2.数据管理能力成熟度评估模型(data management capability maturity assessment model)
  用于对组织的数据管理能力成熟度进行评估的模型
3.能力域(capability area)
  数据管理相关活动、过程等集合以及一组相关数据能力子域的集合
4.数据战略(data strategy)
  组织开展数据工作的愿景、目的、目标和原则
5.数据治理(data goverance)
  对数据进行处置、格式化和规范化的过程
  注1:数据治理是数据和数据系统管理的基本要素
  注2:数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态
6.数据架构(data architecture)
  通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的范围
7.数据标准(data standard)
  数据的命名、定义、结构和取值的规则
8.元数据(metadata)
  关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据
9.元模型(metamodel)
  规定一个或多个其他数据模型的数据模型
10.数据质量(data quality)
  在指定条件下使用,数据的特性满足明确和隐含要求的程度
11.数据安全(data security)
  数据的机密性、完整性和可用性
12.主数据(master data)
  组织中需要跨系统、跨部门进行共享的核心业务实体数据
13.参考数据(reference data)
  对其他数据进行分类和规范的数据。
14.数据生存周期(data lifecycle)
  将原始数据转化为可用于行动的一组过程
15.数据元(data element)
  由一组属性规定其意义、标识、表示和允许值的数据单元

2.3.2 标准(8个核心能力、29个能力项,445个标准)

《GB/T36073-2018 数据管理能力成熟度评估模型》- P8

8个核心能力 - 29个能力项


在这里插入图片描述
1. 数据生存周期(组织)
  为实现数据资产的价值,从数据的获取,处理到应用、运维、退役的全过程管理,使数据能够满足数据应用和数据管理需求。
  包括:数据需求数据设计和开放数据运维数据退役
2. 数据战略(data strategy)-(组织)
  组织中数据工作开展的目标指引,定义组织数据工作的方向、愿景和原则。
  包括:数据战略规划数据战略实施数据战略评估
3. 数据治理(data goverance)-(制度)
  对数据资产管理行使权力和控制的活动集合。
  包括:数据治理组织数据制度建设数据治理沟通
4. 数据架构(data architecture)-(制度)
  用于定义数据需求,指导对数据资产的整合和控制、使数据投资与业务战略相匹配的一套整体构建规范。
  包括:数据模型数据分布数据集成与共享元数据管理
5. 数据标准(data standard)-(流程)
  组织中的基准数据,为组织各个信息系统中的数据提供规范化、标准化的依据。
  包括:业务数据参考数据和主数据数据元指标数据
6. 数据质量(data quality)-(流程)
  是指数据的适用性,描述数据对业务和管理的满足度。
  包括:数据质量需求数据质量检查数据质量分析数据质量提升
7. 数据安全(data security)-(技术)
  计划、指定、执行相关策略和规程,确保数据和信息资产在使用中有恰当的认证、授权、访问和审计等措施。
  包括:数据安全策略数据安全管理数据安全审计
8. 数据应用(data applications)-(技术)
  通过对组织数据进行统一管理、加工和应用。对内支持业务运营、流程优化、营销推广、风险管理、渠道整合等活动,对外支持数据开放共享、数据服务等活动。
  包括:数据分析数据开放共享数据服务

在这里插入图片描述

2.3.3 成熟度评估等级(5级)

  不同等级代表企业数据管理和应⽤的成熟度⽔平不同。

DCMM贯标企业现状 (截止2022年5月13日)

在这里插入图片描述
数据来源:川观新闻

成熟度评估等级(5级)


1. 初始级
  数据管理活动主要是在项目级进行体现,没有统一的管理流程,主要是被动式管理,具体特征如下:
 a)组织在制定战略决策时,未获得充分的数据支持;
 b)没有正式的数据规划、数据架构设计、数据管理组织和流程等;
 c)业务系统各自管理自己的数据,各业务系统之间的数据存在不一致的现象,组织未意识到数据管理或数据质量的重要性;
 d)数据管理仅根据项目实施的周期进行,无法核算数据维护、管理成本;

2. 受管理级
  组织已经意识到数据是资产,根据管理策略的要求制定了管理流程,指定了相关人员进行初步的管理,具体特征如下:
 a)意识到数据的重要性,并制定部分数据管理规范,设置相关岗位;
 b)意识到数据质量和数据孤岛是一个重要的管理问题,但目前没有解决问题的办法;
 c)组织进行了初步的数据集成工作,尝试整合各业务系统的数据,设计了相关数据模型和管理岗位;
 d)开始进行了一些重要数据的文档工作,对重要数据的安全、风险等方面设计相关管理措施;

3. 稳健级
  数据已经被当做实现组织绩效目标的重要资产,在组织层面制定了系列的标准化管理流程,促进数据管理的规范化,具体特征如下:
 a)意识到数据的价值,在组织内部建立了数据管理的规章和制度;
 b)数据的管理以及应用能结合组织的业务战略、经营管理需求以及外部监管需求;
 c)建立了相关数据管理组织、管理流程,能推动组织内各部门按流程开展工作;
 d)组织在日常的决策、业务开展过程中能获取数据支持,明显提升工作效率;
 e)参与行业数据管理相关培训,具备数据管理人员;

4. 量化管理级
  数据被认为是获取竞争优势的重要资源,数据管理的效率能量化分析和监控,具体特征如下:
 a)组织层面认识到数据是组织的战略资产,了解数据在流程优化、绩效提升等方面的重要作用,在制定组织业务战略的时候可获得相关数据的支持;
 b)在组织层面建立了可量化的评估指标体系,可准确预测数据管理流程的效率并及时优化;
 c)参与国家、行业等相关标准的制定工作;
 d)组织内部定期开展数据管理、应用相关的培训工作;
 e)在数据管理、应用的过程中充分借鉴了行业内最佳实践案例以及国家标准、行业标准等外部资源,促进组织本身的数据管理、应用的提升;

5. 优化级
  数据被认为是组织生存和发展的基础,相关管理流程能够实时优化,能够在行业内进行最佳实践的分享,具体特征如下:
 a)组织能将数据作为核心竞争力,利用数据创造更多的价值和提升改善组织的效率;
 b)能主导国家、行业等相关标准的制定工作;
 c)能将组织自身数据管理能力建设的经验作为行业最佳案例进行推广;

2.3.4 评估过程

评估过程


在这里插入图片描述

2.3.5 评估交付物

评估交付物


1.评分结果:根据对于企业的访谈、资料评审,一对一访谈,环境检查等工作,统一为企业的 数据能力成熟度进行评级。
在这里插入图片描述

2.评估报告:企业数据管理现状的评估,帮助企业找到和同业最佳实践的差距,定位自身的问题,分析其中的原因,并给出清晰的分析报告;

在这里插入图片描述

3.数据管理发展路线图:根据企业管理的需要,以及业界最佳实践,制定针对性的企业数据管理发展路线图,并且根据现状的评估报告,制定针对性的行动计划。

4.评定证书:根据企业数据能力成熟度的评级结果,正式颁发企业数据能力成熟度评级证书。

2.3.6 政策支持

  申请DCMM对企业进行评估后,根据不同地区政策,可根据DCMM评估等级,获得10万-100万不等的补贴。某些地区还可以按照项目投资额再额外申请补助

2.3.7 收益

收益 - 国家层面


1.准确评估各地大数据发展现状
  通过地方上各单位数据管理、应用情况的评估,可以掌握各单位大数据管理和应用的现状, 发现具备的优势和存在的问题,为如何更好的利用本地的数据资源和进行针对性的指导提供支持,具体特征如下:

 a) 等级分布
   > 本地区相关企业大数据发展的等级分布情况,每年的改进和提升情况等,
   > 可以准确评价区域发展情况
 b) 共性问题分析
   > 准确把握区域大数据发展普遍存在的问题,为下一步大数据发展能力 的提升奠定基础。
 c) 发现标杆企业
   > 发现本区域内大数据发展的标杆企业,总结最佳实践
   > 结合DCMM的整体资料,开展最佳实践推广,提升区域发展水平。


2.培养大数据发展人才
  大数据产业的发展是技术驱动式的,对人员的技能和素质有很高的要求,通过DCMM的评估可以对各地方和单位的数据从业人员进行培训,提升数据管理和应用的技能,进而从整体上促进地方和单位数据行业的整理发展。
  开展数据管理人员培训,针对区域内的大数据管理、应用方面的从业人员开展DCMM知识体系培训,并对通过考试人员颁发数据管理人员证书,提升区域大数据人员的技能,促进大数据行业的发展。


3.规范和指导大数据行业发展
  大数据基础理论和知识都处于发展阶段,特别是数据管理和应用的知识体系,通过DCMM的评估可以规范和指导大数据行业的发展,提升从业人员数据资产意识,提升数据技能,推广和传播数据管理最佳实践,从而促进整体行业的发展,具体特征如下:
 a) 规范大数据行业管理应用的思路
 b) 建立大数据应用厂商准入的机制
 c) 推广大数据相关的最佳实践
 d) 制定区域大数据发展报告

收益 - 企业层面


1.发现存在的问题,指明发展方向
  通过对于企业DCMM的评估,可以发现企业数据管理过程中存在的问题,并且结合其他企业的最佳实践经验,给出针对性的建议。同时,也可以发现企业数据管理过程中的优点,并加以强化和宣传,具体特征如下:

 a) 现状总结
   > 通过问卷、访谈的形式对现状进行了解,发现存在的问题,分析和行业平均水平的差距,
   > 并且总结和提炼关键发现
 b) 优化建议
   > 针对现状总结,结合最佳实践以及单位发展需要,给出针对性的优化建议。
 c) 推荐最佳实践
   > 根据企业特征,推荐相关的最佳实践案例,了解同业相关的行业经验,
   > 推动自身数据管理、应用水平的提升。
 d) 宣传推广
   > 针对企业管理过程中的优点,加强对内宣讲,提升数据意识,
   > 对外加强推广,扩大行业知名度,推动行业发展。


2.提升人员技能,建立数据能力提升体系
  通过DCMM的评估和培训,可以加强企业内部技术人员、业务人员以及管理人员的数据资产意识,提升相关从业者的技能,理清数据管理、应用建设的思路和框架,规范和指导相关工作的开展。

 a) 规范数据管理体系建设
   > 通过DCMM可以帮助企业开展数据管理、应用工作的规划,
   > 了解相关工作的内容,指引后续的建设。
 b) 提升从业人员的技能
   > DCMM是数据管理、应用方面的参考模型,可以提升
   > 从业人员对数据管理工作的理解和技能,进而改进数据管理情况。
 c) 规范外部厂商的评价
   > 通过对第三方厂商以及员工DCMM资质的检查,
   > 可以降低实施的风险,提升项目建设的质量。


3.持续提升数据能力
  开展DCMM评估之后,可以免费享受一年的DCMM会员服务,从行业专家、最佳实践,行业研讨会、行业报告等多个层面开展相关服务,持续推动行业和公司数据能力水平的提升。

 a) 各行业大数据发展水平报告,分析存在的共性问题以及发展趋势。
 b) 数据能力提升相关的案例库、知识库和各种相关资料。
 c) 行业数据能力评估相关的数据库,准确了解各行业发展水平。
 d) 数据行业专家远程服务,可以提供关键问题的咨询和建议。
 e) 小规模的内部研讨会,各企业交流管理提升经验。
 f) 定制化的数据能力提升咨询方案,综合行业实践、结合企业现状提供咨询服务。


2.3.8 CDP证书

DCMM-注册数据管理师(CDP)认证培训与考试介绍

CDP证书


  为贯彻人社部与工信部大数据工程技术人员国家职业技术技能标准,配合工信部教育与考试中心职业能力等级评 价,进一步加快推动《数据管理能力成熟度评估模型》(GB/T 36073-2018 简称 DCMM)实施,提高我国数据管理人员职业技能,助力我国大数据人才队伍建设,中国电子信息行业联合会、工业和信息化部教育与考试中心联合推出 DCMM 数据管理师培训认证(Certified DCMM Professional 简称 CDP)。


2.4 DGI

参考文章:DGI数据治理框架 全面解读
参考文章:DGI《数据治理框架》介绍 全文翻译

《数据治理框架》

  主张4W1H原则,数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行。该模型描述了为什么需要数据治理(Why),数据治理治什么(What),谁参与数据治理(Who),什么时候开展数据治理(When),如何开展数据治理(How)。

DGI 数据治理框架


3大域
  a) 人员与组织机构(People & Organizational bodies)
  b) 规则(Rules & Rules of engagement)
  c) 过程(Processes)

10个组件

  a.人员与组织机构(People & Organizational bodies)

  7) 数据的利益相关者(Data Stakeholders)Who
  8) 数据治理办公室(Data Governance Office,DGO)Who
  9) 数据管理员(Data Stewards)Who

  b.规则(Rules & Rules of engagement)

  1) 使命与愿景(Mission)Why
  2) 关注领域 - 目标、措施、资金支持(Focus Areas)What
  3) 数据规则和定义(Data Rules And Definitions)How
  4) 决策权(Decision Rights)How
  5) 职责描述(Accountabilities)How
  6) 管控措施(Control Mechanisms)How

  c.过程(Processes)

  10) 数据治理过程(Data Governance Processes)How

在这里插入图片描述

  11) DGI数据治理的生命周期


在这里插入图片描述
  step1. 确定数据治理的价值(Develop a value statement)
  step2. 准备数据治理路线(Prepare a roadmap)
  step3. 制定计划、准备资金(Plan and fund)
  step4. 程序设计(Design the program)
  step5. 部署计划(Deploy the program)
  step6. 管理数据(Govern the data)
  step7. 监视、测量、报告(Monitor,Measure,Report)


2.4.1 为什么需要数据治理(Why)

1、任务(Mission)


 1) 定义数据管理使用规则
 2) 为相关干系人提供数据安全保护和服务。
 3) 对不遵守规则引起的数据问题做出反应并解决

2.4.2 数据治理治什么(What)

2、关注领域 - 目标、措施、资金支持(Focus Areas)


 1) 为了解决数据利益相关方的业务痛点或实现哪些业务和管理目标,例如:增加收入和价值,降低管理成本和复杂性,确保数据安全合规使用等(治理目标)
 2) 包括但不限于:(治理目标)
   致力于 政策、标准、战略制定 的数据治理;
   致力于 数据质量 的数据治理;
   致力于 隐私/合规/安全 的数据治理;
   致力于 架构/集成 的数据治理;
   致力于 数据仓库与商业智能 的数据治理;
   致力于 支持管理活动 的数据治理;
 3) 数据治理的实施需要获得数据利益干系人的支持,参与数据治理的每个人都应该知道数据治理目标是什么,以及如何衡量是否达成目标。清晰的价值和目标会对企业申请数据治理的资金有所帮助。(获得支持)
 4) 帮助业务和IT人员达成共识,为执行过程的协助奠定基础,例如:帮助定义数据、分析数据问题、帮助解决数据问题等。(获得支持)

2.4.3 谁参与数据治理(Who)

7、数据的利益相关者(Data Stakeholders)


 1) 帮助目标定位:数据利益相关方对数据治理项目的目标会有一个更加准确的目标定位。
 2) 数据利益相关方是谁:可能会影响或受到所讨论数据影响的个人或团体。可以是企业中的决策者、DBA,定义数据人员、监督规则合规性人员、解决相关问题的人员、数据治理办公室(data governance office,DGO)等。
 3) 数据利益相关方想要什么:由于数据是影响管理决策的重要因素,因此管理者通常抱有必须由数据治理计划解决的期望。一些数据治理规则将辅助企业领导进行决策,而另一些数据治理规则将在作出决定后通知他们,从而达到企业管理目标的要求。

8、数据治理办公室(data governance office,DGO)


 1) 促进并支持数据治理和数据管理相关活动。
 2) 执行数据治理。
 3) 阐明数据治理和管理活动的价值
 4) 提供与业务和数据计划的关系,例如数据质量、法规遵从性、隐私、安全性、体系结构和IT治理。
 5) 从数据利益相关者收集并调整政策,标准和指南
 6) 支持和协调数据管理的相关会议。
 7) 为IT项目提供数据和分析
 8) 为利益相关方提供数据治理政策的培训、宣贯等活动。

9、数据管理员(Data Stewards)


 1) 对于很多企业的数据管理委员会可能会分为几个团队或工作小组,以解决特定的数据问题。
 2) 数据管理小组负责特定业务域的数据质量监控和数据的安全合规使用,例如:营销域、用户域、产品域等。数据管理小组根据数据的一致性,正确性和完整性等质量标准检查数据集,发现并解决问题。同时,数据治理小组也有义务向DGO提出数据治理策略、数据标准等方面的建议或意见。

2.4.4 如何开展开展数据治理(How)

3、数据规则和定义(Data Rules And Definitions)


 1) 定义数据相关的策略、标准、合规性要求、业务规则等。
 2) 收集数据标准需求,包括现行的数据标准业务规则以及数据使用过程中默认的规则——理清现状。
 3) 对每个数据域的实体数据定义数据标准,包含数据的业务含义、质量规则、存储标准、合规性要求等;
 4) 需要对齐并优先处理冲突的规则,如果数据标准存在冲突应协调数据的利益相关方协商解决。
 5) 发布数据标准,在企业范围内达成共识。

4、决策权(Decision Rights)


 1) 明确数据的归口管理部门/岗位。
 2) 在创建任何数据标准或做出任何与数据相关的决策之前,必须先解决问题:什么时候,使用什么流程,由谁来做出决策?收集及规范决策所需的数据,支撑企业决策。
 3) 数据合规性,例如:在执行级别就可以明确哪些数据必须符合法律法规或行业标准,但是如何遵守这些规则,则需要数据的利益相关者进行讨论共同决策。

5、职责描述(Accountabilities)


 1) 数据治理规则/标准一经发布,就要开始着手实施,谁做?做什么?什么时候做?对于那些职责范围不够明确的活动,数据治理团队就需要将相关活动执行任务分配至日常工作中。
 2) 企业有时会为分配数据治理任务的职责而苦苦挣扎。为什么?
 3) 首先,因为有些数据治理任务通常是跨业务边界的,职责不好定义。
 4) 其次,因为很多管理者只会管理自己擅长的领域,而在合规要求管理方面缺乏经验。
 5) 实际上,在合规环境中,不允许个别管理者独立解释需求。取而代之的是,企业通常会采用一种统一的模型,由一个集中的小组来制定这些规则和要求,然后将其分发给利益相关者进行执行。有时,需要数据治理委员会来协助制定数据治理相关工作的要求和责任。

6、管控措施(Control Mechanisms)


 1) 我们都知道数据的存在永远伴随着风险。敏感数据泄露事件频发及其产生的后果,尤其是对那些数据关联性高的企业机构来说,数据就是决定企业生存与否的风险因素。企业如何应对风险?也许我们无法确定和防止的那些问题发生,但至少可以检测出来,便于企业及时纠正问题,预防风险。
 2) 通常,要求数据治理通过建立风险管理策略,来控制和预防数据安全风险。控制措施可以是预防性的,也可以是侦探性或纠正性的,可以是自动化,也可以是手动执行。同时,还会要求数据治理建立或改进现有控制措施,例如:变更管理,策略,培训、项目管理等,以支持数据治理目标的实现。

10、数据治理流程


 DGI数据治理框架最后一个组成部分,强调主动、应对、持续的数据治理流程,描述数据治理的方法。每个企业的现状和需求情况各有差异,DGI建议企业可根据自身情况自行定义数据治理过程中的结构与形式。DGI认为理想状态下,这些过程应该是标准化、文档化且可重复的,用以支持数据管理、质量、安全、访问管理中的合规要求。


 1) 价值申明
 2) 治理流程
 3) 治理计划、资金计划
 4) 项目规划
 5) 项目实施
 6) 监控、评估和报告
 7) 持续改进

2.4.5 什么时候开展数据治理(When)

DGI数据治理的生命周期


在这里插入图片描述
  step1. 确定数据治理的价值(Develop a value statement)
  step2. 准备数据治理路线(Prepare a roadmap)
  step3. 制定计划、准备资金(Plan and fund)
  step4. 程序设计(Design the program)
  step5. 部署计划(Deploy the program)
  step6. 管理数据(Govern the data)
  step7. 监视、测量、报告(Monitor,Measure,Report)

2.4.6 数据治理位于何处(Where)

  DGI框架外的组件,没有含在10大组件之列。明确当前企业数据治理的成熟度级别,找到企业与先进标杆的差距,是定义数据治理内容和策略的基础。


2.5 白皮书(了解)

数据资产管理实践白皮书

  《白皮书》包括8个管理职能和5个保障措施,8个管理职能包括数据标准管理数据模型管理元数据管理主数据管理数据质量管理数据安全管理数据价值管理数据共享管理,5个保障措施分别是战略规划组织架构制度体系审计制度培训宣贯,如下所示:

在这里插入图片描述


三、数据治理(翻译人话版)

参考文章:企业如何建设数据治理体系方案

3.1 数据治理的定义

数据治理定义


维基百科(Wiki)
  数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。

国际数据管理协会(DAMA)
  数据治理是对数据资产管理行使权力和控制的活动集合。

工信部(DCMM)
  对数据进行处置、格式化和规范化的过程
  注1:数据治理是数据和数据系统管理的基本要素
  注2:数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态

国际数据治理研究所(DGI)
  主张4W1H原则,数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行。该模型描述了为什么需要数据治理(Why),数据治理治什么(What),谁参与数据治理(Who),什么时候开展数据治理(When),如何开展数据治理(How)。


  数据治理的几个重点:1.数据架构2.数据规范3.数据安全4.数据质量5.元数据管理6.数据生命周期管理

1.数据架构


  数据从接入、存储、开发、输出到展示,通常会构建数据仓库来贯穿整个流程,所以这里可以理解为数据仓库架构。可以想象一下,如果没有合理设计数据仓库,分层之间边界不清晰,各个指标计算都可能会出现跨层加载,数据复用性低下,数据不一致等等问题。
  统一的数据架构能够实现包括但不限于:
  1) 数据复用
  2) 保障数据一致性
  3) 清晰数据结构和血缘


2.数据规范


  数据的整个生命周期内,从数据埋点开始,到数仓建库建表,到指标定义,都需要完善的数据规范来保障数据的完整性、一致性和准确性。数据规范应该包括但不限于:
  1) 数仓建模
  2) 库表指标审核流程管理
  3) 指标命名
  4) 库表命名
  5) 字段命名


3.数据安全


  数据从数据源进入数仓,在数仓中流动的过程,我们都应该保障数据是安全的,不管是敏感数据,还是数据使用者应只能访问对应数据的权限。常见的方式包括但不限于:
  1) 数据脱敏
  2) 数据加密
  3) 控制访问权限
  4) 内外围网隔离
  5) 数据备份


4.数据质量


  保证数据质量是数据可用的基础,我们需要通过规范来尽可能保证数据的质量,并监控数据质量的好坏,以便发现和解决问题。常见评估数据质量的方式包括但不限于:

在这里插入图片描述

                           图片来源:如何全面评价一份数据的质量高低?


5.元数据管理


  元数据管理是为了对数据资产进行有效的组织,以便更高效的使用数据资产。在大数据场景下,元数据管理是极其重要的。
  通常有两种方式进行元数据进行收集和管理:
  1) 开源方案
   a) Atlas
   b) Datahub

  2) 自研功能
   a) 元数据收集和存储:解析DDL语句;
   b) 血缘解析:解析DML语句、读取元数据信息;
   c) 元数据探索:读取元数据信息;
   d) 访问控制:读取元数据信息;
   e) 质量规则定义:读取元数据信息;
   f) 展示:通过图数据库(Neo4j等)进行图形索引。

在这里插入图片描述


6.数据生命周期管理


  制定数据过期策略,根据业务需求为数仓分层数据采用不同的过期策略,对过期数据进行冷备或者清理操作;
  对数据文件:定期对小文件进行压缩、合并;定期对历史数据进行归档;定期对冷数据进行删除。

在这里插入图片描述


3.2 为什么需要数据治理?(Why)

为什么需要数据治理?(Why)


 常见问题:
  1) 数据库表命名不规范
  2) 数据规范不一致
  3) 指标定义不统一等等问题
  4) 会造成库表数据混乱冗余
  5) 数据质量参差不齐
  6) 部门之间数据难以打通
  7) 数据难以有效管理
  8) 工作交接困难等各种问题

 治理目标:
  1) 更佳地决策
  2) 更有效地管理
  3) 建立标准的可重复的流程
  4) 保护数据利益相关者的需求
  5) 降低成本和提高效益
  6) 这是数据治理的使命和目标


3.3 数据治理是要治理什么?(What)

1.数据架构


  数据从接入、存储、开发、输出到展示,通常会构建数据仓库来贯穿整个流程,所以这里可以理解为数据仓库架构。可以想象一下,如果没有合理设计数据仓库,分层之间边界不清晰,各个指标计算都可能会出现跨层加载,数据复用性低下,数据不一致等等问题。
  统一的数据架构能够实现包括但不限于:
  1) 数据复用
  2) 保障数据一致性
  3) 清晰数据结构和血缘


2.数据规范


  数据的整个生命周期内,从数据埋点开始,到数仓建库建表,到指标定义,都需要完善的数据规范来保障数据的完整性、一致性和准确性。数据规范应该包括但不限于:
  1) 数仓建模
  2) 库表指标审核流程管理
  3) 指标命名
  4) 库表命名
  5) 字段命名


3.数据安全


  数据从数据源进入数仓,在数仓中流动的过程,我们都应该保障数据是安全的,不管是敏感数据,还是数据使用者应只能访问对应数据的权限。常见的方式包括但不限于:
  1) 数据脱敏
  2) 数据加密
  3) 控制访问权限
  4) 内外围网隔离
  5) 数据备份


4.数据质量


  保证数据质量是数据可用的基础,我们需要通过规范来尽可能保证数据的质量,并监控数据质量的好坏,以便发现和解决问题。常见评估数据质量的方式包括但不限于:

在这里插入图片描述

                           图片来源:如何全面评价一份数据的质量高低?


3.4 什么时候开展数据治理(When)

数据治理应该是循序渐进的过程:


  1) 应该制定技术规范和数据规范,统一数据架构和指标口径,优先实现数据的价值;
  2) 对元数据和安全方面进行治理,实现表和指标搜索管理,清晰数据血缘,保障数据安全;
  3) 从技术架构、任务和资源进行治理,提升数据处理和使用效率;
  4) 沉淀规范形成治理标准,完善从业务到底层技术自上而下的数据全生命周期数据治理。

在这里插入图片描述


3.5 如何进行数据治理?(How)

1.元数据管理


  元数据管理是为了对数据资产进行有效的组织,以便更高效的使用数据资产。在大数据场景下,元数据管理是极其重要的。
  通常有两种方式进行元数据进行收集和管理:
  1) 开源方案
   a) Atlas
   b) Datahub

  2) 自研功能
   a) 元数据收集和存储:解析DDL语句;
   b) 血缘解析:解析DML语句、读取元数据信息;
   c) 元数据探索:读取元数据信息;
   d) 访问控制:读取元数据信息;
   e) 质量规则定义:读取元数据信息;
   f) 展示:通过图数据库(Neo4j等)进行图形索引。

在这里插入图片描述


2.数据生命周期管理


  制定数据过期策略,根据业务需求为数仓分层数据采用不同的过期策略,对过期数据进行冷备或者清理操作;
  对数据文件:定期对小文件进行压缩、合并;定期对历史数据进行归档;定期对冷数据进行删除。

在这里插入图片描述


3.统一数据架构


  表名做到见名知意,分层结构清晰河里,各分层都有对应的作用域,分层之间边界清晰,数据复用高,保证数据一致性。数据关系有条理,数据质量有保障,血缘可追踪。
  数仓分层结构,并没有唯一标准,需要结合实际情况,仅供参考:

在这里插入图片描述


4.统一数据规范


在这里插入图片描述

  1) 数仓建模规范:数仓通常采用维度建模,应该根据规范和业务主题合理规划数仓分层。

  2) 库表命名规范:各业务线的数据库,数仓各分层表应该有统一的命名规范。
  例如:分层标识+业务主题+扩展类型+更新周期(dws_dua_detail_daily)

  3) 指标命名规范:应统一指标、维度和词根命名规范。
  例如:基础指标:时间(业务主题_time timstamp 13位)
     占比(业务主题_ratio ,decimal(11,4))

  指标 = 更新周期 + 修饰词 + 指标:7日APP渠道留存(7day_app_retain, int, 11位)。

  4) 审批流程管理规范:创建表、指标、维度、周期和修饰词都应该有统一的审批流程管理规范,通过元数据库和指标库进行存储和管理,以便实现流程标准化和稳健审计,构建表和指标的管理应用。例如:数据地图、指标字典。


5.保障数据安全


在这里插入图片描述
  1) 分级:制定数据分级、分类规范,并确保数据有准确的分级保密机制;
  2) 授权:制定角色授权规范,确保相关人员只能访问对应级别授权的数据;
  3) 脱敏:对敏感数据脱敏,对安全数据加密,防止敏感数据泄露;
  4) 审计:制定审计标准和流程,为审计提供依据。


6.提升数据质量


在这里插入图片描述

  1) 数据质量:通过统一的数据规范可以提升从数据源到进入数仓的数据质量;通过质量监控,对数据质量进行检验,保障数据质量的完整性准确性一致性唯一性关联性规范性

  2) 实现方法:可以通过Griffin、Qualitis等开源方案实现,也可以开发功能,通过定时/实时任务对数据进行检验,分析数据的日环比,周同比等指标进行周期性对比和告警。


7.ETL任务治理


在这里插入图片描述
  通常会与调度系统结合,监控任务执行情况,对失败任务、超时任务和资源占用过高的任务进行告警和诊断,优化任务执行效率。


22/09/27

M

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值