大数据在中国的大地上蓬勃发展,带动了许多新的理念的诞生,数据治理就是其中之一,这两年已建立好的数据中心或者正在建的数据中心都在如火如荼的进行,在企业内部,也已经开始由原来的业务部门和IT部门演变出来数据管理部门,通过开展数据管理办法、制定数据标准、保证数据质量、维护数据架构、提供平台与工具等工作作为数字化转型的基础设施,数据治理已经成为数据团队履行数据职责的重要手段。
目前很多大数据公司都推出了很多数据治理相关产品,相信这些工具和平台也会越来越成熟,数据治理相关工具本身不是数据治理最难的问题,针对企业目前在数据管理方面存在的问题主要还是业务规划咨询,针对企业数据架构进行规划,如何构建企业数据管控体系,实现数据全生命周期的统一管理,建立数据标准与规范,提供全面、统一的数据服务,灵活支撑业务,为企业精细化管理提供保障,为企业发展创造价值,提升企业运营与管理能力,打造企业核心竞争力。
针对企业数据架构进行规划咨询,整个过程基本上主要分为以下几个阶段来推进工作:
在第一阶段统筹规划中建设组织责任体系,首先是把主要工作职责定义好,这个是做任何事情的前提。
数据治理组织责任体系大致分为:数据治理委员会、数据管理部门、数据生产部门(业务部门)、数据消费部门(业务部门、客户)、数据开发部门(如果很多企业没有该部门,一般进行招投标来完成IT厂商的选定)。针对各组织体系运行的认责机制流程参考如下图所示:
明确了相关组织责任体系后,接下来就是如何完成数据标准的制定,这是目前企业数据管理部门最头痛的问题。
一般企业做这项工作至少需要4-5个人,同时牵头组织人还需要具备以下技能:
-
掌握业务,如果不懂,组内必须有人要懂
-
熟悉有哪些部门,每个部门的职责是什么
-
针对数据库有比较深的理解
-
针对数据架构有比较深的理解
-
针对数据治理实施方法论有比较深的理解
数据治理组织是依据业内的业务经营理念、业务战略、IT战略以及数据战略共同的推动,结合企业实际的情况形成实施数据治理的有效保障,尽管各家企业形式、归口部门及人员设置有所不同,但组织的形成是建设数据治理长久机制的基础性工作,从一定程度上来说,组织建设是“人”的建设。它激发了组织活力,保障数据治理日常化和持久化。
说完数据治理组织,然后说下数据资产盘点和制定数据标准,事实上,数据资产盘点和制定数据标准是相铺相成的。
传统意义上的资产盘点是指对资产进行定期清点,以确定各种财产在一定时间的实存数。数据资产盘点则是对企业拥有的数据进行清点,已确定企业当前拥有的数据。数据资产盘点将帮助企业弄清以下问题:
-
企业有多少数据?
-
企业有哪些数据?
-
企业的数据价值如何?
-
企业的这些数据分布在什么地方?最有价值的数据存储在什么位置?
-
企业数据的归属和责任人是谁?
数据资产盘点的成果是数据资产清单或数据资产目录,它能从全局层面直观的展现企业拥有的数据资产情况,帮助企业进行更有效的数据利用和管理,明确企业的数据保护目标,协助企业完成数据安全保护体系的构建。
企业的数据资产盘点,应该以数据价值为导向,以统一标准为核心。因此,在进行数据资产盘点前,我们需要明确以下几点:
-
企业在日常经营活动中,积累了体量庞大的数据
-
只有可控的、能为企业带来利益的数据才是数据资产
-
数据使用和保护的前提是知道有哪些数据、在哪里
-
统一的数据定义和价值标准,将有利于数据的使用和管理
-
明确数据的归属,将为跨业务的数据使用和数据安全保护落实提供便利
下面介绍数据资产盘点的方法和步骤,主要归纳为6个阶段:构建数据标准、数据发现、数据定义、分类分级、明确归属、数据资产目录。
(1)构建数据标准
企业的数据往往来源于各个业务,而各业务的数据来源、数据定义和价值标准,可能存在极大的差别,这将不利于数据的整合、全局管理和使用。因此,企业在进行数据资产盘点前,首先要根据企业所在行业的相关标准,结合企业自身的业务情况构建数据标准,形成全局统一的数据定义和数据价值体系。数据资产盘点工作,将在此数据标准的指导下展开。
(2)数据发现
数据发现是解决数据在哪里、有多少的问题。随着企业的业务不断发展,数据量将呈指数级上升,这些数据可能散布在各个角落。数据发现就是从全局出发,系统性的扫描企业内的数据资产,确定数据存储的位置和数据量,形成数据的存储分布地图。数据发现的核心在于全面、系统的扫描,以避免出现数据遗漏的情况。
(3)数据定义
数据定义是解决有哪些数据的问题。针对扫描的数据存储位置,需要对数据进行识别和定义,标记数据内容,并基于数据内容和存储方式,明确数据的组织结构,形成库-表-字段的数据框架,即明确库中有哪些表、表内有哪些数据,结合数据发现的成果,绘制数据资产地图,将数据的存储位置、存储内容、存储量清晰的进行呈现。
(4)分类分级
分类分级是解决哪些数据有价值、数据价值高低的问题。数据的分类应该基于业务,数据的分级应该基于价值,数据的分类分级应该构建的数据标准指导下进行。通过数据的分类分级,对发现定义的数据进行数据价值和重要性层面的全面梳理和标记,为数据使用、价值挖掘、数据保护提供价值依据。
(5)明确归属
通过调研、业务关联、存储对象关联等方式,确定数据资产的业务归属和责任人,有助于掌握数据的来源和去向、明确相关责任归属,为跨业务的数据使用、数据关联分析、数据分类保护等提供目标和责任指向。
(6)数据资产目录
数据资产目录是数据资产盘点的最终成果,也是数据资产管理的第一步。它将企业内的所有数据进行汇总,构建出一张全局的数据地图,清晰的展现出企业拥有的数据内容、数据量、数据价值、数据存储位置以及数据归属和责任人,帮助企业掌握其拥有的所有数据及数据价值,为企业进行数据使用、数据价值挖掘以及数据保护提供指导依据,同时指导企业进行数据规划和数据体系搭建。(了解更多数据资产目录的内容,点击阅读 企业数据资产目录构建方法与步骤)
有人会问,那到底如何开展上述工作呢?为了摸清企业有多少个业务系统、每个业务系统里面有多少张表、业务系统中的业务表哪些是空的、分别有哪些部门在使用和产生数据等问题,首先需要制定一个数据资产调研表,下图为政务信息资源目录调研表模版表,面向政府部门的:
(点击查看高清原图)
下图为某高校的数据标准模版表,面向企业的可以参考:
(点击查看高清原图)
依据上述调研表的信息按业务主题域进行数据分类、识别相关实体、构建数据模型,规范主数据与编码规则。
如何针对业务主题域进行分类?首先要知道企业的业务经营范围和相关职责是什么,就是搞清楚企业业务,比如政务资源里面把信息分成人口、法人、宏观经济、空间地理等分类;法院体系把人、案件、车辆、办公进行业务主题分类。
如何查找实体数据?实体数据在数据库进行存储的时候,主要有以下几大特性:
-
数据更新频率低
-
数据访问频率高
-
数据有唯一性
-
许多表引用该表信息
这些信息其实可以根据程序进行一次数据探查,可以大致判断出实体数据是哪些表,得到一个需要人工进行调整的ER关系进行手动打标,如果是人工的话就应该是调查加操作sql语句来判断相关情况。完成实体数据定义后,同步的行为表、数据字典表也可以进行整理出来,在整理过程中相关的数据模型也同步形成。
至此,盘点数据资产阶段结束,接下来要定义数据标准。数据标准一般分为基础数据标准和指标数据标准,所谓基础标准既是按照业务主题域划分后形成每一个数据元、代码集、编码集都属于数据基础标准。指标数据标准,构建指标体系是一个完整的过程。
-
代码集:一个代码集代表一个数据元,怎么理解呢?例如:性别是一个数据元,那么他的值域范围是一个数据字典里面的值,主要包括男、女、其他三种之一。代码集和数据元之间最大的差异为:该数据元如果是代码集,那么他的取值范围是依据代码集范围而来的。
-
编码集:编码规则也是数据标准的定义范围,只是使用范围是不一样的。编码集既可用于数据元的编码规范,也可以用户目录和分类的相关规范。
-
数据元:专业定义又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元。数据元的属性一般分为通用属性和行业属性,通用属性目前国家针对数据元定义了22个核心属性,针对每个行业的属性,企业里面可以自行定义新的属性,上文图1和图2里面就体现了不同行业针对数据元的属性是有差异的。
一般来说,数据标准梳理一般是自上而下来做的,这种方式梳理出来可能很完整,但是落不了地。
目前行业盛行的方式自下而上做的,通过数据治理平台可以自动采集一些技术元数据,再通过这些数据的特征跟数据的数据元信息建立关联关系。这个过程的技术相对复杂,需要结合技术平台和人工确认两个环节,需要通过业务属性、技术属性的特征建立相关数据标准。(了解更多数据资标准的内容,点击阅读 数据治理连载漫画:数据标准如何落地?)
最后分享在梳理数据标准中的常见的几个问题:
1、定义数据标准的时候发现几个系统都有同类数据时应该怎么办?
在这里应该找到“权威元”。举个列子,把卫计委的人口信息和公安的人口信息都获取过来,发现都有人口信息,但是又有差异,那么应该如何做,这个时候,就需要知道,公安管人口的,一切人口基础信息以公安为主,那么就会将公安作为权威元来进行比对数据间的问题,这样也可能倒过来完善权威元的数据信息,企业内部业务部门数据职责和系统使用道理一样。
2、梳理过程中的多个数据元如何形成一个数据集?
在前面讲到,针对已有数据资产进行了获取技术属性,在底层存储的时候,基本是在一个表中,首先可以针对一张表里面的数据元分成小类,在业务里面叫数据集,在A表中有一个身份证号码,在B表中也有一个身份证号码,那么在两个数据集中也会存在,所有可以确定一个关系是一个数据元可以存在多个数据集中。
3、针对定义好的数据集如何区分大类或者叫资源主题域?
这个其实就是前面提到了主题如何分域的问题,首先标准肯定要去对应资源,资源需要确定在哪些部门里面,部门里面有哪些系统在管理这些资源,按照这个方式首先就梳理出来资源生成数据标准,有了数据标准后,需要结合实际业务场景生成数据服务,数据服务可以形成主题库、主数据、指标库等多种形态。
4、数据质量规则如何去梳理和生成?
在数据标准基础之上定义质量体系,质量问题一般分为两类:语法错误和语义错误。语法错误,可以依据现有的长度、类型、值域等内容进行基础版规定;语义错误是需要结合业务场景来确定数据一致性、完整性等规则。这个梳理可以从数据库层面去梳理,很多时候数据库表中其实存在很多关系,往往以前在设计的时候没有形成物理关系,可以通过观察数据得知,肯定存在主外键关系,把业务质量规则就按照这个方式去配置,通过不断完善业务逻辑和使用数据服务去优化数据质量定义。
大家都在看: