数据治理与数据标准

1

数据标准的是什么?

在实际的工作生产中,我们一般会参照国家标准、地方标准、行业标准等来进行具体的活动,来确保我们生成过程符合监管要求、便于上下游协同等,于是我们会见到如下的标准指导文件:

同样,数据标准也会以文件的形式存在,在除了国标、行标定义的标准外,企业内部为了便于各部门采取同样的数据建设规范,通常会使用文件来定义数据标准,以供各部门达成统一的共识。

虽然文件是标准的一种体现形式,但文件是非结构化的,在实际应用中,我们只有理解、提取文件里的内容,将标准应用于产品设计及流程活动当中去,标准才能起到真正的规范约束作用。

根据信通院发布的《数据标准管理实践白皮书》定义:数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。

毫无疑问,这是正确的。但我们还需要将标准践行,以建设数据中台为例,我们知道数据中台强调的是资源整合,在数据层面就是整合多源异构系统中分散在各个孤岛的数据,形成统一的数据服务能力,这是一项艰巨的任务, 很难通过互相约定以及默认信任相关方来保障数据的价值发掘,形成真正的数据资产。

于是,基于此点将数据标准进行扩充,一是对管理范围的扩充,从狭义的数据标准(指对基础数据本身的规范性约束,如数据格式、类型、值域等)扩充到整个数据中台层面的标准(包含治理各阶段的规范性约束);二是对管理手段的扩充,数据标准不再是指一系列的数据标准化文档,而是一套由规范要求、流程制度、技术工具共同组成的体系,通过这套体系完成标准的规划、制定、发布、执行、检查、维护等行为,来完成数据的标准化以及标准的沉淀。

2

数据标准的价值

在说价值之前,我们先聊聊让我们头疼的问题。人人都在谈论数据标准,但数据标准真的被应用起来了么,我们拿着一堆标准文件,期望企业内部宣贯大家要按照这个标准来,但执行的结果如何?

数据集成多源异构数据时,数仓开发人员真的能快速理解这些数据的实际业务含义么?如果理解成本很高,开发人员可能就会出现认识偏差。

终于数据集成进来了,可以开始进行数仓建设了,如何保证每一层的数据都是符合质量要求的,靠开发的个人素质么?比如我们一般在dwd层做数据标准化,那么不同主题域的由不同的负责人进行开发,怎么保证标准化的结果似乎满足规范的?dws的数据可信度还能保证么?还能被叫做公共模型层么?

再后,数仓开发完成后需要对外开放,我们其实开发的不光是其数据,还需要开发它的元数据信息,帮助数据使用方快速的找到需要的数据,如果只是把数据堆在一起,只有研发人员自己知道这个数据是什么、在哪、怎么使用,那是不能够被称为数据资产的。

还有很多问题,这里只列举了些典型。当然这些问题,是可以解决的,解决的方式就是数据标准。解决的的过程可能需要的时间比较长,因为标准从管理到落地执行推进并不是一件容易的事,需要从思想上进行转变,但我们总要正确的做事。

下面列举了一些价值,但在实际的应用过程能够发现更多的可能性。

价值一:建立统一的数据视图

建立通用的元模型规范,支持用户自定义扩展,对多源异构数据表进行信息抽象提取,形成统一的元数据层。所有的数据开发完成后发布到数据标准维护的统一的数据目录,通过不同维度的数据目录进行多维筛选,满足各类用户的检索需要,达到资产的可管、可用、可查的目标。

价值二:建立统一的数据认知

首先利用标准完成对多源异构数据的标准化描述,虽然数据在不同系统中的称呼千奇百怪,但只要进入我们的平台都将赋予统一的名姓,使得管理方、开发方、使用方建立统一认知。对于仓外表将数据标准与表字段进行关联,旨在统一含义以及告知未来数据处理的方向;对于仓内表,模型设计之初就需要引用标准,我们知道将数据项进行组合即可得到模型,数据元即为标准数据项池,模型设计时仅需从池子里选取需要的字段进行组合即可组装成想要的模型。

价值三:建立质量稽核体系

现有的质量稽核一般是由用户根据业务需求手动设置,不同人员的认知偏差将导致数据质量难以控制。数据标准通过数据元的表示类属性,根据其格式、类型等要求自动生成质量稽核规则,当某张表的字段绑定了数据元时,即可根据数据元的质量信息要求自动生成稽核任务,且保证了源头定义的一致性。

价值四:面向未来的数据治理

我们知道,工具的终极目的都是为了降本提效。效率提升是要靠流程规范的,流程足够规范,在某种程度上可实现流程自动流转。因此,未来的数据治理趋势应当侧重于流程自动化以及阶段智能化,而这两点都需要数据标准的支撑。

阶段智能化期望在流程各阶段提供智能识别能力,比如字段的真实含义(挂载数据标准)、资源所属分类、字段枚举值等,减少人工参与。从短期来看,用户从处理者变为审核者,从长期来看,用户干预的行为反哺识别模型,增加识别准确性,可降低人力成本;

流程自动化依赖阶段智能化以及人工干预的结果,将各阶段进行串联,上下游尽可能完美对接,当上游阶段达到下游准入条件时,可自动触发流程运作,当然该过程也需要统一上下游语言(即数据标准),在实际实践中,可通过试运行进行验证。

标准的价值还有很多,限于篇幅不过多赘述,大家可以不断发现标准的应用场景。说完标准的价值了,那么我们该如何建立数据标准呢?

3

如何建立数据标准?

在早期的业务发展过程中,企业为了解决当下的业务问题,各业务条线已建设自己个性化的业务系统,在建设的过程中为了保证内部通信,或多或少都已存在局部的数据标准。因此,建设统一的数据标准很大程度上是对局部标准进行收口,一般来说,可收集现行的国家标准或行业标准,将现有标准与国标或行标进行对标,此过程一是可以满足监管需要,二是可大大节省标准制定的人力;另一方面则是考虑所在行业的特点并结合企业的实际需要,逐步构建标准进行推行。

具体可参考数据标准的建立的6个步骤,分别是:数据标准规划、数据标准制定、数据标准发布、数据标准执行、数据标准检查、数据标准维护。

3.1 数据标准规划

标准的规划首先需对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。再根据实际情况的不同,逐步推进。

3.1.1 收集现行标准

可从业

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sunday_ding

一分钱也是爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值