【精选】数据治理项目实施(合集)06——数据标准在数据治理中的落地实践

导读

本文对数据标准管理进行了深入探讨。重点介绍了数据标准的定义,实施路线和具体标准定义的内容,并总结了企业开展数据标准管理面临的常见问题,由于编写的水平和时间有限, 难免有所纸漏, 欢迎大家批评指正。

        在现实生活中,标准与我们生活息息相关,食品需要满足标准才能实用,汽车需要满足安全标准才能上路行驶,电子产品需要满足标准才能互联互通。那么在 数据治理领域,标准同样很重要,我们数据治理的一个目标就是将各类不同来源的数据进行标准化管理,从而提升数据资产的使用和价值。这篇文章将从数据标准的定义、执行步骤、活动内容等方面阐述数据标准的实践方式。

01 什么是数据标准

        数据标准是什么,到底包括哪些内容,这个从概念角度而言有好几个出处:

    数据标准data standard:数据的命名、定义、结构和取值的规则。——GB\T 36073-2018 数据管理能力成熟度评估模型。

    数据标准 (Data Standards) :是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》数据标准:并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,    数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014银行数据标准定义规范。

   那么数据标准的实质内容是什么,我们具体要对哪些活动做标准,可以看下面这张图:

        这里可以看出,国标对数据标准的定义包含业务术语、主数据、参考数据、数据元和指标数据。在DAMA体系当中,没有将数据标准作为一个独立的活动来管理,这其实就意味着,数据标准普遍存在于我们数据治理的各项活动当中,是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,通过对活动、流程、定义来统一规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。比如下面这张图,从数据要素角度定义的数据标准又是另外一个维度,所以标准没有边界,但凡涉及到治理的活动、流程、内容,都需要依赖标准来约束。

 当然,也并不是所有的内容都需要定标准,应为标准的范围实在是太大了,这就取决于怎么来判断标准的范围,落标的程度。所以在做数据标注之前有三个问题需要考虑:

  •     问题1. 什么数据需要制定哪些标准?

    并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)

  •     问题2.什么系统落什么标准?

    核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

  •     问题3.什么人与什么时间执行?

    可以参考下面这个表格

02 数据标准的实施路线图

    数据标准同样也是需要做到规划先行,总体执行步骤分六个阶段:

标准规划阶段:对当前的数据标准进行调研,了解各厂家、各来源数据的标准情况,收集诸如数据字典、模型设计等信息。同时了解当前业务领域,国家、行业、的相关权威标准,定义出数据标准框架和实施路线图,以及数据标准的整理表格。

    数据标准制定阶段:标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要指数据元及其属性的确定。随着企业业务和标准需求的不断发展延伸,需要科学合理地开展数据标准定义工作,确保数据标准的可持续性发展。

    标准发布阶段:数据标准的评审发布工作是保证数据标准可用性、 易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门 、 数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、 数据标准审议、 数据标准发布等三个过程。

    数据标准维护阶段:数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    数据标准化评估阶段:数据标准化评估是为了验证各类标准的落标情况,对落标的效果进行评估,从而能够看出标准的执行效果,并发现新的落标内容。

03 数据标准规划需要做的事儿

数据标准规划包括数据标准调研、数据标准梳理、数据标准框架定义、数据标准模板定义。

【数据标准调研】

    数据标准调研应从业务运行和管理层面、国家和行业相关数据标准规定层面、信息和业务系统数据现状三个方面开展,同时需要考虑现有定义、使用习惯、问题梳理、现状分析、参考文档等。可以通过调查问卷、安排现场访谈、收集文档资料等手段,针对不同的业务系统选用合适的调研方式,对现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等开展相关调研工作。调研内容包括现有的数据业务含义、数据标准分类、数据元定义、数据项属性规则以及相关国际标准、国家标准、地方标准和行业数据标准等。

    这里顺便补充一下常用的标准查询网址:

【数据标准梳理】

    数据标准梳理是将前期调研的数据标准以及当前数据内容进行梳理,整理出数据标准清单。数据标准的数量可以引用BOR法进行,依据所要构建的数据标准覆盖的业务范围,梳理这些活动中涉及到的全部Objects(主体或对象),以及Objects之间的关联关系。构建数据标准的过程,就是定义Objects和Bussinse的组成要素(政府叫数据元,有些叫信息项,在技术层面统称为元数据)。根据每个业务活动,比如说销售的活动,那就会提炼出销售业务相关的数据对象;比如说客户、销售的产品、销售订单,这些都是相应的实体数据。实体的数据都有相应的属性信息,需要把它的每一项属性信息从三个角度,业务角度、技术角度、管理角度,进行统一的梳理,最后归纳出来与实体之间的关系,形成数据的整体模型。

        首先构建数据标准的主题域,厘清数据主题域之间的逻辑关系;再逐级分解,定义各个主题域下的重要实体和实体间关系;最后定义每个实体中的标准信息项,包括业务含义、质量规则、安全级别、值域范围、代码集等内容。

(数据标准梳理清单)

【数据标准框架定义】

    数据标准框架一般分为基础数据标准和指标数据标准。

    基础类数据标准:为了统一企业所有业务活动相关数据的一致性和准确性解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准。

(1)业务标准

业务标准规范,一般包括业务的定义,标准的名称,标准的分类等。对于业务人员而言,数据标准化建设,可以提升业务的规范性,提升自己的工作效率;同时,保障了数据含义的一致性,降低了沟通成本,给业务的数据分析,挖掘,信息共享提供了便利。

(2)技术标准

技术标准规范,是从技术角度,看待数据标准包括了数据的类型,长度,格式,编码规则等。对于技术人员来说,有了数据标准规范,工作效率可以大幅度提升,降低系统的出错率,有助于提升数据质量。

(3)管理标准

管理标准规范,是从管理角度,看待数据标准。比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都是一个数据规范要求。对于管理人员来说,数据标准建设,保证了数据的完整,准确,为数据安全,经营决策都提供了支持和保障。

  指标类数据标准:1、基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得。2、计算指标通常由两个以上基础指标计算得出。并非所有基础类数据和指标类数据都应纳入数据标准的管辖范围。

【数据标准实施模板定义】

        数据标准实施模板主要是为了辅助数据标准实施定义的一系列流程模板,其中包括数据标准工作详细计划、调研规范、分析报告、参考物清单、标准评审报告、数据字典清单、业务术语清单等文档,能够贯穿标准从规划到执行评价整体工序的文档。

04 数据标准制定的内容

数据标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要包括模型数据标准、主数据和参考数据标准、业务术语表及数据元的确定,随着业务和标准需求的不断延伸,需要合理规划标准定义工作,确保数据标准的可持续发展。

【数据模型标准】

     模型数据标准是为了统一业务活动相关数据的一致性和准确性,解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准,模型数据标准也是元数据管理的主要内容之一。

        在定义模型数据标准的时候,需要通过规范表名称、字段名称及数据类型来指导数据架构设计,形成数据治理的延续。使用同-规范巩固和形成持续的数据治理机制。

【主数据和参考数据标准】

    主数据和参考数据是对数据标准要求最严格的活动,涉及到标准定义的主要有两部分,一是主数据自身的标准定义,也就是主数据包含的元数据信息,包括数据格式、同义词约定、字段名称、值域范围等内容。

        另外一个就是关于参考数据的标准定义,主数据统一各数据对象的定义肯定会涉及到多源数据标准的整合,如参考数据,到底引用哪个源头的字典进行定义是需要后期多方进行评审的,在这个背景下,如果有国标、行标的前提,可以进行优先引用。参考数据标准如下图所示:

【数据元标准】

    数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。也就是说数据标准最小粒度也就是数据源标准的定义,数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。

    完整的数据元应当由三部分组成,对象类、特性及表示只有当对象类及其特性绑定了表示时,才能由数据元概念转变为真正的数据元。

    对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;

    特性类:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;

    表示类:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;

    在理解了数据元的含义后,如何去制定数据元呢?我们可参考GB/T18391标准的第1~6部分,有兴趣的朋友可以去了解下。对于数据元的规范,国家和行业都有很多标准,所以在定义数据元标准的时候,需要更多的去关注这些标准,在制定数据元时,可以从6个方面描述数据元的基本属性:标识类属性、定义类属性、关系类属性、表示类属性、管理类属性、附加类属性。

(数据元标准样例)

【业务术语标准】

    业务术语是数据在多方应用场景的统一语言表达,同样业务数据内容也是需要在前期调研环节收集的内容,并结合官方的权威定义对业务术语进行标准化定义和完善,业务术语的目标主要有以下几点:

    1)对核心业务概念和术语有共同的理解。

    2)降低由于对业务概念理解不一致而导致数据误用风险。

    3)改进技术资产(包括技术命名规范)与业务组织之间的一致性。

    4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。

【指标标准】

   指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得,计算指标通常由两个以上基础指标计算得出。

05 数据标准的发布

        数据标准的评审发布工作是保证数据标准可用性、易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门、数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、数据标准审议、数据标准发布等三个过程。

06 数据标准执行和检查(贯标)

        数据标准执行主要分两部分,第一部分是正在进行数据治理的各个阶段进行应用,第二部分是新建系统和历史存在的业务系统的应用。新建系统的贯标必须严格按照发布的标准进行设计,通过使用平台提供的模型设计产品进行管控。正在运行系统的标准可以通过探查、智能识别的手段建立映射关系,包括模型的引用,字典的引用,或者通过数据清洗转换进行映射处理。

         在数据标准执行的过程当中,为了检查标准的执行情况,我们也可以依靠各类数据质量规则、数据安全规则进行相关标准的检测工作,来验证标准的执行情况。

07 数据标准的维护

        数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    在数据标准维护的初期,首先需要完成需求收集 、 需求评审、 变更评审、发布等多项工作, 并对所有的修订进行版本管理, 以使数据标准 “有迹可循 ”,便于数据标准体系和框架维护的一致性。其次, 应制定数据标准运营 维护路线图,遵循数据标准管理工作的组织结构与策略流程,各部门共同配合实现数据标准的运营维护。

    在数据标准维护的中期, 主要完成数据标准日常维护工作与数据标准定期维护工作。日常维护是指根据业务的变化,常态化开展数据标准维护工作,比如当企业拓展新业务时,应及时增加相应数据标准;当企业业务范围或规则发生变化时,应及时变更相应数据标准;当数据标准无应用对象时,应废止相应数据标准。定期维护是指对已定义发布的数据标准定期进行标准审查,以确保数据标准的持续实用性。通常来说,定期维护的周期一般为 一年或两年。

    在数据标准维护的后期,应重新制定数据标准在各业务部门 、 各系统的落地方案,并制定相应的落地计划。在数据标准体系下,由于增加或更改数据标准分类而使数据标准体系发生变化的,或在同一数据标准分类下,因业务拓展而新增加的数据标准,应遵循数据标准编制、 审核 、 发布的相关规定。

08 数据标准执行的常见问题

        这里举几个比较典型的数据标准执行的常见问题:

1、存量数据标准落标

  •     存量系统先管理好数据模型和字典,这作为未来统一数据标准的基础。

  •     摸清模型存量系统不符标准的情况,如标准代码,编码规则,存储格式等严重影响数据指标和拉通汇集的情况。

  •     根据非标问题的影响程度,制定未来的落标计划,选择合适的时机进行逐项的落标。

  •     未落标前,可以先落标ODS层或ADS层,这样可以纠正后期应用的标准化问题。

2、多套标准并行的场景

  • 对标准进行有效范围的定义,以明确每套标准的用途,比如原系统的标准作为地方标准,数仓的作为国家标准。

  • 建立标准之间的映射管理,做好数据拉通的依据解决。这样设计标准的维护和变更就可以重点选择哪里进行新增,以及如何进行统一等。

3、其他问题举例


 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

  ———— 欢迎加入社区讨论数据治理————

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

elevenli9216

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值