DAMA数据治理与数据质量--非结构化数据的数据质量管理

本文根据汪广盛先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。

 

图1.1 

DAMA(国际数据管理协会)中国区主席  汪广盛

演讲嘉宾介绍 -- 汪广盛

  • 国际数据管理协会(DAMA)中国区主席,美国区块链技术应用研究院院长。

  • 曾先后供职于Bank of American(美国银行)、GE (通用电气)、KPMG (毕马威)、AOL (美国在线)、Google(谷歌) 、美国财政部、GEICO等。主要从事大数据、人工智能和区块链等相关的咨询、研发、实施和培训。同时还先后兼任马里兰州亚太商会董事,旅美商务研究和开发协会董事,旅美大专院校联合会(DC)首席科学家,北京/上海交通大学教授等。

  • 2017年回国后,曾先后参与了多个国家部委关于数据标准、数据治理指导意见、数据隐私保护等相关条文的讨论和编写。组织编著、翻译和出版了《大数据理论和工程实践》(人民邮电出版社,2018年12月)、《穿越数据管理的迷宫-数据管理执行指南》(机械工业出版社,2020年5月)、《DAMA数据管理知识体系2》(机械工业出版社,2020年6月)、《区块链改变游戏规则》(清华大学出版社,预计2020年8月)等,并为多个部委、省级机关、和企业提供数据管理和数字化转型的培训。

演讲目录

  • DAMA简介

  • 非结构化数据的质量管理

  • 非结构化数据管理的未来趋势

  • 总结

 

汪主席:尊敬的各位领导、各位嘉宾、各位同仁们,大家早上好!非常感谢谭总给我们这么好的一个机会,让我们来介绍一下DAMA,我将从4部分向大家汇报一下。

 

我首先想介绍一下我们这个协会,因为待会会引出几个话题。今天的话题主要是数据质量,所以我想紧紧围绕这个话题向大家做汇报。

 

我们这个协会是1980年成立的非营利性的机构,在全世界基本都有分支机构,当然主要的力量还是在美国和欧盟。会员不多,才1万个人,所以跟PMP相比的话,我们还是一个很小的协会。我们最为人所知的是两件事情,一个是我们出了本知识体系,这本书今年5月份国内已经翻译出版了,都是我们协会的一些志愿者翻译的。有两本,右手边那本是专门给我们数据管理的专业人士写的一本书,左手边这本《穿越数据的迷宫》基本上是为领导写的,领导也需要知道数据管理到底是怎么一回事,所以我们写了两本书。

 

 图1.2

 

第二个比较为人所知的是我们有一个认证叫CDMP。这个认证是由我们国际数据管理协会统一命题考试,是一个国际认证,也是行业认可的。很有意思的是,我在国内也教一些课,真的很少有人知道CDMP,像在美国的话,如果你是搞数据管理的,你必须要有一个PMP的证书,如果你搞数据管理或者搞数字化转型,你需要一个CDMP的证书,这是通用的一个标准,但是国内相对来说对CDMP了解比较少。

 

这是我们的知识管理体系,大家都在讲数据治理,数据治理到底是什么,右手边是从技术的层面,我们认为哪些是数据管理必须要做的。 

 

图1.3

 

在DAMA,数据管理这个概念跟国内通用的数据治理是一回事,我们这边的数据治理指的更多是管理制度、组织构架。像我们一般去做项目的时候,都会问我们要搞数字化转型是否必须要成立这么一个机构,专门来讲数据治理,这个答案当然是肯定的,不管是一个虚拟的机构或者是一个实实在在的实体机构,这么一个机构是必须要有的。

 

所以我们这边的数据治理更多是一种组织架构跟制度保障,跟现在国内通用讲的数据治理有些不一样。

 

我们认为以数据治理这么一个组织架构和组织保障作为一个基础,然后有11块内容,比如说元数据的管理、主数据的管理,包括文件跟内容的管理,我待会会着重讲一讲非结构化数据的数据质量管理,大家可以看得到数据的安全、建模等,数据建模是我们必须要的一个基本功,包括数据的构架,我们认为数据管理包括这么11部分的内容。

 

左手边这个更多是从业务层面讲数据管理你应该包括哪些内容,比如说生命周期管理,再比如说数据管理成熟度评估。大家都知道我们有一个数据成熟度评估模型,工信部在我们的基础上也推了一个DCMM,这是我们国家的一个标准。

 

数据成熟度怎么来评估,数据价值的评估,刚才杨部长也提到了数据价值问题,我们也一直在讨论,甚至我们跟德勤、信通院还联合搞了一次征文,就说数据的价值到底怎样来评估,我们提的一个问题是,数据什么时候可以上我们的财务报表,我们认为现在还没有,因为它满足了第十八条,但是他没有满足第二十跟二十一条,所以至少从现在这个情况看,数据要直接上财务报表目前还是不太可能的。

 

包括像原则及伦理,现在有许多的法律上面的条规仍然是比较缺乏的,比如大家都在讲政府数据和公共数据,公共数据属不属于政府数据,这些数据如何开放?向谁开放?以及这个共享,大家知道,最近又出来了一个叫“隐私计算”的概念,我们需要把政务的数据通过隐私计算的方法跟银行、跟第三方交换,谈到最后一个问题:在法律不健全的情况下,我们作为一个企业,作为一个机构如何用伦理来约束自己,不至于滥用数据。

 

所以左手边这个更多是我们这个协会认为的从业务层面来讲到底哪些是属于我们数据管理哪个范畴的,这本书通过160多位专家,整整写了一年多的时间,我们国内有30多位专家参与翻译了这本书。

 

图1.4

 

数据管理的目的是什么,这个是从我们那本书里面摘录出来的,比如主数据管理最终目的是为了提高数据质量,让数据产生价值,确保高质量的数据是数据管理的核心,这是我们这个协会认同的一个观点。所以,当有这么一个会议的时候,我非常高兴,因为这恰好也是我们非常认同的观点,这就是数据管理的核心。

 

这是美国一个智库写的,他们说现在有这个数据,大家可以看到平均有29%的这样或那样的问题,也正因为这个问题,另外一条我没写在上面,导致了在美国75%数据的项目全部失败了,非常大的一个数据,当然现在的情况越来越好了,因为有许多标准、方式方法,包括技术的成熟,都已经有了许多的进步。前段时间美国数据项目全部失败的占比是75%。

 

大家可以看到,就因为数据质量导致了那么一系列的问题。托马斯·雷德曼做了一个估计,因为这个坏数据,每年美国政府要多花费3万亿,所以这是一个巨无霸的数字。我们数据管理的目的,我们认为就是要有一个很好的数据质量,在高质量的情况下才有可能实现数据变现。

 

图1.5

 

我们这个图比较难看得懂,我今天看到有很熟悉的面孔,好多是我们DAMA的会员,大家应该熟悉这张图到底是什么意思?比如说我们前面是限定了什么叫数据质量,我非常赞同刚才杨部长讲的,我们跟杨部长讲的非常接近,我们要实现的目标到底是为了什么,我们的输入是什么,比如说我们要评判一些什么东西,数据质量管理的活动包括哪些;数据质量管理活动结束了之后,我们的输出又是什么。我们讲了谁是我们数据质量的供应者,然后哪些人应该参与数据质量的管理,最后谁来消费我们这个数据质量。

 

最底下这块是关于技术的层面,从技术的层面来讲,比如说有一些什么实践跟方法,有一些什么好的方法论、工具,比如说华矩本身具有很多工具,华矩的谭总上次还在我们协会里面分享了一次关于数据质量工具的内容,大家就觉得非常好。

 

所以,从工具这个角度来说,现在市场上也有一些,这样我们这个指标怎样来衡量,你这个数据质量到底是好的还是不好的。

 

图1.6

 

这也是我们DAMA英国协会提出来的几项标准,他们总共提了12条,通用的是有8条,就是说我们怎样来衡量数据到底是好的还是不好的,有许多是已经量化了的,可以用一个数据来告诉你我们这个数据质量到底是怎么样的。

 

应该来说比较好理解,比如说完备性(Completeness)跟完整性(Integrity),这二者我们用不同的字来表达,待会我仔细讲一讲这个。包括准确性、及时性等,如果说这是有用的信息,过了三个小时以后说不定对我就毫无意义了。

 

图1.7

 

我今天是想讲讲非结构化数据的质量管理。说实话,结构化数据质量管理相对来说是比较成熟了。

 

我做了一个简单的比较,结构化跟非结构化数据,我这个非结构化数据就当做是一个文档吧,看一下这些非结构化数据质量到底怎样来管理,说实话确实还是很不成熟,也很有难度。

 

从我们DAMA的角度来讲,我们看到了这个问题,所以我们希望能够有一个解答。今天与其说我给大家一个答案,不如说我是提出这个问题。

 

非结构化数据质量管理的核心内容实际上是没有变的,尽管我们讲的是非结构化,它的核心内容没有变,比如说非结构化数据的完备性,也是质量的一个部分。比如说我原来需要10个文档,你最后交了3个文档,这当然是不完备的。同样的道理,我这个文档当中本来是有6部分的内容,你才写了两部分的内容,这个文档质量当然也是有问题的。

 

图1.8

 

所以,我们可以通过一个文档的清单,或者一个工作的模板,用这些东西来做,包括文档这个元数据的完备性,这也是一个问题,这个文档具体是什么内容,权限是什么,储存在哪里,这些所谓的文档元数据也有完备性的问题。

 

非结构化数据的完整性,比如像文档来源的真实性,如文档的来源到底是不是真实的,里面的内容是不是真实的,有没有修改过,甚至是否存在虚假的信息,现在虚假的信息太多了,你怎样判断某个文档的完整性,这也是一个问题。这还有非结构化数据的可用性,这个文档到底是否可用,所以这个核心的内容跟结构化数据应该来说是差不多的。

 

结构化数据面临的那些衡量的标准,我们非结构化里面实际上也会有这么个标准在这,所以完备性应该还可以理解,大家想想这个完整性应该怎么管理?比如你怎么知道这个文档没有被篡改过,再比如里面的内容是否真实,这个该怎么管理,我先抛出一个问题,待会我会提出我的想法。

 

大家可以看到非结构化数据的质量管理难度系数比结构化数据难的多,从技术层面来讲也有许多技术现在也没有完全能够跟的上,所以这个非结构化数据的质量管理很难。

 

最近我也去了几个大数据中心,目前国内的大数据中心做的什么工作?所有的结构化数据的归集目前都已经完成了,特别是像北京、上海、浙江、贵州和广州等,该整理的数据都已经整理出来了,所以去每个地方,大家都会告诉我说我们的第二期开始做非结构化数据了,工作量会非常大,另外工作会非常的艰巨,这个真的是不容易。

 

如果你真的要做一个非结构化数据的质量管理:

 

第一,编一个数据资产目录。

 

 图1.9

 

第二,你肯定要对管理的现状进行评估,我们DAMA有一个专题组专门在做这个非结构化数据的管理,有这么一个专项正在做,领头的是在美国的一个专家。我们也提了一些参数,我们可以看看非结构化数据的管理现状,数据质量是其中的一个,还有数据安全,非结构化数据的存储、非结构化数据的开放等等,包括结构化数据如何共享,现在共享讲的非常多。

 

实际上共享并不能解决所有的问题,在许多情况下信息孤岛是必然存在的,是不可能消除的,由于法律的限制、伦理的要求,所以数据共享并不是能够解决所有的问题,但是它是很重要的。

 

我们这边也提了一些大概的参数,基于这些参数我们到底怎样做,要不要一个组织?肯定需要,就好像我们要有一个CDO一样,可以是一个虚拟的机构,但是必须要有这么一个机构。

 

图1.10

 

我们在某市里面碰到这么一个问题,他们目前尝试着做非结构化数据的管理,后来感觉指挥不动,因为这个大数据中心的级别大家知道,跟其他委办的级别是相同的,比如跟交通局或者市场监督管理局是同级的机构,所以没有指挥权,所以这个数据的归集当中碰到了许多问题,目前他们这个组织机构正在调整。

 

这里面需要有文件的管理,档案的管理,一般现在的行情是把文件跟档案分开,还有视频的管理,特别是证照的管理,因为这是非结构化数据,需要这些管理部门具体负责这些具体的任务。

 

图1.11

 

我们需要建立一大堆的规章制度,说实话数据质量管理许多时候是一个规章制度的问题,是一个体制的问题,比如说从最初的食品设定开始,我们DAMA对非结构化数据质量的管理并不是从数据进来了才开始,我们的起点是在前面,在数据没有进来之前我们就应该要有这样一个需求的设定,这也是DAMA的理论,所以有许多的规章制度需要写,我们最近有一个团队就在写这样的规章制度。实行起来有点难度,需要有前面数据治理那个保障来做这个。

 

我快速讲非结构化数据管理的未来趋势,基于我们DAMA的理解,因为内容比较多,我就快速讲一讲:

 

1. 增强式的数据分析。特别是对于非结构化的数据而言,如果说我们没有AI的加入,基本上是没有办法来管理的。大家可以看一下这个,因为我们要去验证文档里面内容的真实性或者内容是否干净等,没有NLP,如果说每一个人去读这个文章的话,这个工作基本上是不可能完成的,所以我们讲的必须是一种增强式的数据分析,特别是NLP对我们非结构化数据的管理显得非常重要。

 

图1.12

 

2. 图形关系分析。为什么这对非结构化数据非常重要?假定说我这个文件传输给了你,然后你又传输给了其它方,我要知道这个文件的来龙去脉就需要用图数据来表述。

 

图1.13

 

所以,从这个角度来讲,文件传输的途径以及管理,非常需要图数据来管理。从这点来讲的话,图形分析对我们非结构化数据的管理来讲非常重要,甚至比结构化数据起到的作用会更大。

 

3. 统一的数据管理平台跟数据虚拟。上个星期我还跟华为的几位兄弟们在聊,华为是非常有前瞻性的,他们在弄一个叫OpenLooKeng的引擎,他想做一个什么东西呢?我管你是结构化的还是非结构化的数据,我统统把你整合起来,从最终用户这个角度来讲的话,我就是一个统一的界面,所以这就是所谓的数据虚拟。

 

图1.14

 

从最终用户来讲的话,我们把底层都给你搞定,然后你只要拖拽你的报表或者你所需要的信息就出来了,所以这就是OpenLooKeng,我认为华为这个方向非常好。因为非结构化数据太难管理了,这样一来对于用户来讲大大方便了。 

 

4. Data Fabric。这是2014年提出来的,为什么要提这个概念?许多数据都是储存在不同的云里面的,现在肯定是一个混合云,我们不太可能像一个大型的机构,只用华为云、阿里云、腾讯云等。在混合云的情况下,我的非结构化数据储存在不同的地方,怎样把它整合起来是一个问题。

图1.15

 

5. 边缘计算。为什么要提这个呢?工业互联网里面有边缘计算的概念,实际上非结构化数据管理里面也有边缘计算的概念。跟结构化数据不一样的是,我们非结构化数据基本上都储存在各地,甚至我的手机上,你怎样把这些数据都管理起来,所以你要把所有非结构化的数据全部集中化,我觉得非常有难度,甚至于不一定有这个可能性。所以,我们认为边缘计算的引入肯定是一个趋势,特别是对非结构化数据的管理。

 

图1.16

 

6. 区块链的参与。我个人认为我们数据管理不一定需要区块链,包括隐私计算,但是我感觉到在处理非结构化数据的时候,没有区块链的参与恐怕是很有难度的。不是说我一再要讲区块链有多么的伟大,我认为未来管理非结构化的数据没有区块链的加入恐怕真的很难。

 

图1.17

 

在DAMA的书里面,我们有一章非结构化数据管理里面就讲到了这个,比如说非结构化的数据,我对这个文档进行真实性的判断,我怎么判断?你当然可以用其它的方式方法来做,但是有区块链的话,你的工作效率会大大提高。

 

很显然这一点是说我知道这个文档有没有被修改过,假定我前面的工作已经判定我的这个文档是真实的,内容是很好的,也是有用的,在那个基础上,我后面的就不需要再去评判了。如果说没有区块链,我这个文档就算评判好了以后,我进行过了修改,你仍然是不知道。所以我是充分认为,当我们在做非结构化管理的时候,如果没有区块链的参与,很有可能这是一个很大的缺陷。

 

我们认为数据质量是数据管理的核心内容,也是数据价值实现的基础。相比较结构化数据的质量管理,非结构化数据的质量管理更加复杂、更艰难,现在刚刚才开始。我们DAMA关于数据治理这11个领域可以有效的帮助我们提高数据,包括非结构化数据的质量关系。

 

我的汇报就是这样,谢谢大家!

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页