企业如何进行数据质量管理

文章摘自7月9日,华矩科技数据治理系列讲座,华矩科技创始人及董事长CEO带来分享:企业如何进行数据质量管理,从数据质量认知的发展入手,分析业务和IT建设中所隐藏的常见数据质量问题,从而引出企业数据质量管理的方法及思路。

 

今天我们主要从更偏技术的角度来探讨数据质量的问题,主要有4个方面。

第一个方面是与数据质量相关的概念。

第二个方面是谈谈我们对于数据质量的新认知,既然是谈数据质量我们就需要先认知一下什么叫数据质量。

第三个方面是重点谈一下我们在做数据质量管理中的一些难点,其中会重点关注一下数据质量的审查,因为审查会直接与我们的这个数据质量的评判有直接关联。

最后我会用一个例子来看一看企业进行数据质量管理的一些过程,希望能跟各位讨论一下在谈数据质量管理的时候,我们应该从哪方面去着眼。

01 与数据质量管理的相关概念

第一个方面我们来看看相关的知识,也就是与数据质量管理相关的概念。

首先我们看这个DAMA 的DMBOOK,这个图是我们典型的DMBOOK宣传的9大板块,其中有一个很重要的板块叫data quality的管理。在这张图中有关的数据质量的这一块中我们挑了4个点来讲,我把它们总结为“固本清源”,表达了我的一个理解。首先是讲定义,有些翻译成规范,就是说在讲数据质量管理的时候,我们的定义是什么样子的?第二个关注点是分析,就是说我们讲数据质量肯定离不开数据,要去分析它的脉络、分析它的关系。第三个是它的度量,其实也就是评估,在谈这个评估的情况下,肯定是要有一个标准,而且还有一套方法才能进行度量。第四个就是improvement,这里强调的是管理的闭环。从数据质量管理的角度,我想我们要关注“固本清源”,首先要从“本”来去了解数据的这些问题。

我们还有另外一个角度,这个是来自业界的一些实践。我这里挑了一个,就是说谈到data quality我们关注数据的什么呢?首先是这个轮廓,其实跟DAMA DMBOOK里面提到的“分析”是比较相同的,但是出发点是不一样的。这里面更强调的是我们整个数据的属性,是不同的角度。第二个我们谈数据的清洗,做清洗就离不开规则,其实清洗的本质是规则,而不是清洗的动作。第三个我们谈监控、监管,我们要有监控的能力和监管的能力,就是说我们怎么识别它是有问题的,甚至是需要我们关注的。第四个就是遵从跟合规的问题。最后一个是可追溯,这个其实跟我们刚才的DAMA DMBOOK的里面是有同样的角度了,之前是叫做分析溯源,在这里面就是可追溯性。

还有一个角度是来自技术界的角度,就是说我们站在技术的角度,我们怎么理解这个数据质量管理。在业界里面我们在谈技术的时候、我们在谈这个数据质量管理的时候,我们是有什么角度呢?在这个红框里面大家可以看到,首先就是说我们要具备这样的能力去做数据质量管理,就算你用这个好的数据质量管理工具,也应该有这个能力。另外一个就是离不开ETL了,ETL我们认为是数据集成。那还有清洗,刚才我们也提到了清洗的能力是怎么样,包括它的匹配能力,在我们数据质量管理里面有很多是离不开匹配的,比如说怎么去发现唯一性的问题。这些都是我们讲到的,包括一些技术上的推荐、包括规则的发现、包括我们数据补充完善的一些问题等等。这是从技术界的角度来看数据质量管理。

除了通过三个角度看它的不同聚焦的一些概念之外,这里还有一张图,是一个示例。我们数据质量管理的维度在哪里?这张图比较好的表达了一个流程人员跟技术。作为一个数据质量管理来讲,其实我们是离不开这几个维度去做工作。大家在讨论的时候,不同的等级会讨论不同的问题,比如说流程更偏管理、更偏我们的战略、更偏我们的这种方法。People这一块呢我们可能更讲我们的组织架构,更讲我们的这个人员的界定,更讲我们的名单,讲我们的收益。

 

02  数据质量的新认知

第二部分我们想看一看数据质量的认知是什么。

我想通过一个例子,大家可以看一下这个场景。这个场景是太经常碰到的情况,就是说我们在业务IT里面,大家可能不一定意识到它是一个数据质量的问题。我举个例子,这里面提到人员信息整合,怎么实现我们的员工渠道,包括IT外包人员信息的整合服务,是非常业务驱动的一件事情。

假如说我们不站在数据的角度去看这个问题的时候,其实它是一个很标准的系统集成甚至是软件开发的事情,但是往往我们在这里面会发现有很多是隐藏的数据质量的问题。它要集成这三个系统的数据时,你就会看到他们的一些特点, 有ID、有staff ID、有邮箱、有联络信息。首先有一点是很重要的,就是规范,要是在这个定义规范角度没有处理好的话,那这个就是数据质量的一个很典型的问题。我们可以看到,我们要回答很多问题,这些问题就是说什么是正确的,什么是标准化的?究竟这个字段叫姓名是正确的,还是叫name是正确的?还有哪个是标准?还有代码规范的问题,比如说性别。当然还有一些关联性的问题。很简单的一个数据的整合,但是其实它背后存在着非常多的这些问题。那这些问题可能在你不关注的时候不是问题,当你关注的时候它就是问题,就是数据质量的问题。

Ronald G. Ross在 2018年美国的一个国际峰会里面有一个演讲,我非常认同他提到的这个数据质量的问题。也就是说,归根到底数据质量并不是真正是你数据的问题,它是你的商业语义词汇及业务规则的质量问题。

对数据质量,我们会有一个认知,通过这张比较简单的图可以反映我们怎么看待这个数据质量,从数据、信息语义到业务规则到业务运营。数据跟业务规则中间,我们隔了一个信息语义的问题,也就是说这种业务规则是靠数据跟信息语义来构成我们所讲的这个业务规则。

在这里面有一个非常简单的例子,这个是一个保险界的问题。如果一个客户下了订单,他必须安排一个代理人跟进,这可能就是一个业务规则。谈数据离不开IT,离不开系统,虽然有管理的一面,但是还是有落地的一面。那我们把它分解了一下,如果一个客户记录里面有任何一个记录订单,那么这个客户的记录里相应的要用标识是否被派遣的代理人的字段必须填上系统认可的标志。一段业务规则分解到我们的系统其实是这样子的。那我们会看到这里面涉及到几个潜在的数据质量问题,比如说表的重复记录问题、理解歧义、标识的一致性问题。虽然是一条业务规则,但是它潜在的这些分解会引导到我们的数据质量里面去。

另外一个我们看信息语义,我们会关注几个问题。一个是可读性,可读性对信息来讲这个是蛮重要的,比如说我们刚才在我上面一个片子里面有讲性别。比如说像可信赖的,什么叫可信赖呢?这里要讲到它是遵从所有的业务规则,也就是说假如说我们这个信息它是经过我们的遵从度的管理,甚至是我们的合规管理合规检查过的,已经通过我们的业务规则的甄别的,那就会提升它的可信赖度。

接下来我们看数据规则,刚才提到了我们从数据、信息然后才到规则,其实规则现在比较泛指这个规则,什么叫规则呢?只要是一套逻辑,我认为就是规则,我认为大家在讨论这个数据质量的时候,经常会去这么理解。在大家做清洗的时候,它背后肯定是有一套业务逻辑,但是它反映的可能只是一些他的字段属性。所以对数据的规则,我们会把它的颗粒度再分解一下,不是笼统的讲规则或者叫业务规则。那这里面我们就分成三个层级,就比如说在属性这个层级的,叫字段级。还有另外一个我们叫表这个层级的。那从字段到表到我们的业务,到我们整体的关联性,也就是说我们在表与表之间,我们还有它的业务规则的概念。另外一个就是我们叫行业规则,行业规则比如说我们银保监会的监管的这些规则,包括我们保监会也有很多规范,比如像我们医疗界也有很多这种安全规则。所以我们在谈业务规则的时候,可能不能笼统的去谈的什么是业务规则,因为它还是有分层的。我们只有把这些东西进行分层之后,我们再来看怎么进行这个数据质量的度量,包括我们数据质量衡量的一些角度,从哪里去看这些问题。

那我们就讲到审查跟诊断的问题了。这几个方面构成了我们对一个企业的或者说一个系统的数据质量的元素。数据它本身是没有意义的,它只有把它的这个信息的定义,包括业务规则串起来,才有它存在的意义。所以这里面刚才我们也提到一点叫可读性。就是说数据质量,虽然我们讲它有很硬性的这种定义,但是还是有一定的相对性。

我们刚才提到了数据剖析,在讨论数据质量的时候,这个环节是回避不了的。可以说我们对数据了解的多少,也反映了我们去做数据质量管理的深度。大家会看到就是不同的层级,越是粗浅的层次,我们的技术手段容易一点,越往深度的时候要求更高。我们讲数据探查的时候、深入剖析的时候,这些问题都是我们对数据质量的一些认定。

当然还有刚才讲的度量的问题,我们究竟有没有一个好的度量方法来去评估这个数据质量,而不是停留在感觉上,我们能够去进行它的定量,那这种定量就来自于很多数据上的一些积累。有关信息也是一样的,就是数据再扩张了我们叫信息。另外一个就是我们的这个业务规则,从我们的数据、信息到业务规则这三个维度,我们来对一个数据的质量进行它的一些定量,包括它的一些分析,来最后确认这个数据的一些状况是什么,这个是稍微偏技术一点。

这张图我们看看技术层面上跟管理层面上它的关联,这张图左右互为因果。当我们发现这个数据的一致性有问题的时候,准确性有问题的时候,其实它隐藏的管理上的问题,可能就包括我们缺失数据的所有权的责任,也就是说在我们的组织架构里面,在我们的分管数据的主数据管理里面,这些管理上的缺失,它可能会导致一致性的问题,可能会导致准确性的问题。反过来也是这样。其实我们在谈数据质量的时候,我们谈的不只是数据本身,谈的还是数据质量管理相关的管理政策组织,组织架构,包括我们的程序。

 

03  企业数据质量管理的难点

前面重点还是关于数据质量一些认知,那后面我们看一看究竟数据质量管理的难点在哪里?我跟很多客户在交流的时候,大家都提到数据治理的目标是什么?数据治理的其中一个最大的目标就是要求提升数据质量,这点是毋庸置疑的。当然,评判我们的数据治理的成败的时候,通常也会透过数据质量的好坏来去验证我们数据治理的好坏。因为不管数据治理做的再好,如果呈现出来的数据质量是很差的,我相信没法推动数据治理的。很多企业启动数据治理的缘由就是来自数据质量的问题。

那数据质量的难点又是在哪里?我们刚才做了一些剖析,包括数据信息、业务规则等,每一个层级所发现的问题,都有可能导致数据质量问题的产生,这就是我们要做数据质量审查的原因。我相信这是企业做数据治理过程中无法回避的环节,企业过滤无用数据、ETL、选规则等等,这些工作都是叫审查。

今天重点讲一下关于审查技术和方法。这个内容可能偏技术一些。

这里面我们讲一讲为什么要去做数据质量审查。讲到审查首先面临的问题就有:样本数据怎么来的?选什么样的数据进行审查?审查选择数据的原则是什么?全量跟局部的关系是什么?增量跟存量的关系又是什么?如何才能选择到能够发现问题的样本数据……

这些问题我们叫数据预处理,一般我们会选用局部的数据,那我们探查的角度在哪里?审查之后分析,然后通过分析的结果最终找到问题所在。数据预处理探查也包括分析,我想这是一个方法。但这里涉及到数据质量的管控流程,管控流程里的很多概念跟我前面讲的三个不同的角度都有相关联,包括DAMA提及的都是相关联的。

 

首先是剖析,这是在数据质量里非常重要的一个环节,包括验证源数据,首先我们需要搞清楚固本清源的问题;数据的流程问题;设计的问题;开发问题……相信很多企业也是按照这个流程走的,但难在剖析。如果在剖析里面没有办法发现问题,没有办法找到流程上的问题,设计开发就无从开展。包括很多返工问题也是因为我们没有办法非常快速的发现我们的业务规则,后面的转换清洗也因为前面没做好而无法开展,难点就是在此。

数据诊断是数据质量管理必不可少的一步,我们谈数据质量管理,就要了解自己的数据质量在什么程度,否则对我们管理的方法包括落地的成功率都会产生直接的影响。也就是说管理的闭环首先你要知道问题在哪里,才知道怎么去用,如果连问题都不知道,就没有办法去讨论“improvement”这个概念。所以说数据诊断是数据质量管理里面必不可少的。

回到数据质量审查,我想大家在谈数据质量审查的时候,主要会从三个维度去看:时间、成本和能力,这三者决定了我们做数据质量审查的效果。

首先是时间,因为我们在数据质量管理或数据治理时,它是有窗口时间的,我想金融界的朋友会对窗口时间比较熟悉,比如你一个TB的数据,在你用你的方法处理完的时候,后面两个TB的数据已经又要来了,就会发现前面的标准不对,后面发现的这个标准可能更重要,所以我要改掉前面的标准,这个就叫窗口问题。也就是说我们在处理数据质量的这个时候,它需要有一个窗口时间,而且需要一定的稳定状态。

第二个就是成本。这里包括人力成本以及资金成本等。

第三个就是能力问题。这边提到一个2-8原则,通过有限度的或者说最少的投入来获得最大的成效。一方面考虑到ROI的问题,另一方面是因为一开始就做到全量的数据质量审查是不可能的,因为数据是动态的,你所说的全量也只是某一个moment,某一个环节某个时间片段里面的全量,也不是你真实的全量数据,因为数据的产生是动态的。

04  企业数据质量管理方法示例

前面我们都是从微观的层面在讨论数据质量,接下来我们从宏观的角度来理解一下数据质量管理是怎么做的。

每个企业都有自己对数据质量管理的定义,包括对支持业务需求的数据进行全面的质量管理,依据数据在数据生命周期的各个阶段的特性建立数据质量的监控机制等发现问题,那这里面就包括我们谈的数据质量管理的范畴。这个是一个示例,并不代表每个企业都会这样,因为每个企业都有自己的一些特点,包括选定工具报告机制、怎么测评质量问题、建立数据质量工作流程等。

 

还有一个就是说我们引发数据质量的问题,就是说我们在一个企业里面,究竟是怎么保证我们的数据质量问题?其实微观是一部分,还有宏观的一部分,比如说这里谈到的政策,因为我们有政策变化,政策变化会导致系统的变化,系统变化导致我们的定义发生变化。这种政策性的变化就会导致前面提到前后不一致的应用口径问题,这个是没办法避免的,因为每个国家都在成长,每个行业都在发展。政策为什么摆在第一位,因为这个是不可控的问题,因为5年前跟5年后的政策不一样,所以系统不一样,定义也不一样,这个是没有办法改变。

另外一个就业务需求问题了,业务需求发生变化可能导致我们的这个数据质量的问题。

操作水平因素是最容易发现的,也是比较好解决的,我相信这个操作水平、控制机制、应用程序这个就跟IT相关了。

 

还有一个就是管理方法,管理方法里面我们提到了指标定义、感知定义、临床定义等,我相信大家经验也都非常多,做的时候会发现很多坑对吧?管理方法的问题是大家关注的,这个是业务指标的问题,这个业务指标跟我刚才给到的这个6性有一些相通的地方,但是我觉得每一个企业对自己的这个数据质量的目标还是有不同的,要是大家是金融界的,就知道银保监会发了一个叫数据治理行动计划,它提了四性,包括完整性、准确性、及时性等。当然每一个行业它的关注点不一样,每一个企业的关注点也不一样,究竟是真实性对我更重要还是一致性对我更重要?我相信可能每个企业对某些数据或某个阶段的数据,它的这个业务指标都不一样,包括一些技术指标。

另外一个就是推广方面,我们在推广上要注意一些什么事情。这个例子是给大家一个概念,就是什么是管理闭环。从我们的制定到最后的推广,我们应该注意些什么事情。这里面有提到分工协作等等,其中有一个很重要的就是你的架构问题,它往往是放在数据治理这个大的框图里面讲。这个问题与数据质量的这管理是非常相关的。还有这个是刚才提到的数据质量管理不能替代系统开发的测试工作,这里有很多在实际工作中碰到的一些问题,包括这里面提到的更新后的数据质量标准,包括我们的闭环需要怎么去调整。

 

另外在实施推广中有6个要点,我觉得对我们做数据质量的管理来讲还是是有重要意义的,包括对重要性的认知,包括系统设计。这个更偏IT的角度,因为这里面基本上是刚才提到的产生数据问题的下面的三段,包括制定数据标准,数据标准要是没有的话,那整个数据会产生这些问题。然后还有就是很具体的一个迁移。很多企业的数据质量的问题可能有很大的一个原因是来自于迁移,因为我相信我们很多IT系统现在监控的能力已经非常的科学,但是我们现在面临的很大问题是说我们在旧系统往新系统升级的时候,包括系统合并的时候,会导致很多的数据质量问题。还有一个就是管理环节,最后一个就是培训。

 

 

今天主要是希望用一个小时的时间跟各位分享、交流一下,从不同的角度来看数据质量管理,跟大家一起探讨我们在DAMA的理论框架下,在业界这种先进的理论框架下,我们怎么能够把扎实的工作做好,能够解决具体的数据质量问题。这是我今天的分享的一些重点,可能会涉及到一些技术层面的东西,包括一些概念性的东西。那么数据质量管理这个领域也是华矩科技所关注的重点,也是我们最致力于去做的事情。这里也欢迎各位后续继续进行交流,我们很乐意跟大家去沟通。因为数据质量这个问题可以讲是一个比较老的问题,但是在中国是极具发展潜力的。我记得去年我们在做DQMIS峰会的时候,樊院士也跟我讲过,在中国最有可能的地方就是在数据质量的领域,因为中国是有大量的场景,大数据的场景是在中国,所以也非常乐意跟各位一起来共同探讨,为了未来我们整个数据质量的发展。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值