数据质量在数字经济发展的意义

本文根据谭海华先生在【2020第二十四届软博会之“数据治理与流通高峰论坛暨全国DCMM现场工作会”】现场演讲内容整理而成。

演讲嘉宾介绍 - 谭海华

  • 华矩科技创始人及董事长 CEO

  • 中国管理科学研究院创新所大数据共享技术委员会主任及学术委员

  • 数据质量国际峰会 DQMIS的发起人及执行负责人

  • 数据共享联盟-数享汇创始人

  • 国家发改委培训中心特聘大数据专家讲师

  • 工业大数据应用技术国家工程实验室《工业企业大数据治理实践指南》编委会成员

  • 中国保信《保险大数据》、《中国保险报》、中保信特约撰稿人,是中保信特聘技术专家

  • 中国电子技术标准化研究院等创办的数据标准化与治理专家库首批成员

  • 广州市工业和信息化委员会大数据及人工智能专家团首批入库专家成员

  • 曾任职IBM、埃森哲咨询、微软,致力企业管理咨询、信息化建设、大数据治理及相关行业信息化解决方案研究和实施

    - 作为埃森哲资深顾问参与管理及实施国内最早一批的大型企业数据治理项目

    - 作为IBM资深顾问及SIC项目负责人参与实施华为IPD咨询项目

    - 作为IBM资深顾问参与管理及实施国内金融业最早一批的数据仓库项目策划

我首先解释一下,为什么选用这个题目。在整个大数据里,数据质量的意义毋庸置疑,为什么拿数据质量来谈?有以下两个角度:

  1. 数据治理的目的是为了提升数据质量,但是过往我们提到的数据质量可以说是站在背后,所以今天我想这个分享的主题是想看一下数据质量在整个数字经济中是怎样直接发生关系的;

  2. 数据质量是直接和经济挂钩的,数据作为生产力的一个要素,那么数据质量如何体现在我们的生产力方面,包括如何扩大经济、增加收入等。

 

上图是信通院在2005-2019年的报告,显示了数字经济在整个GDP的成长过程。什么叫数字经济?这份报告中提到了几个层面:数字产业化、产业数字化、数字化治理以及数字价值化。那么数字经济怎么样才能够体现在数据要素里呢?

 

这里有四个板块,说明了数字经济可能涉及的地方:数据治理、质量大数据的问题、大数据产业的问题、数字经济。泛义的数字经济包括互联网经济、共享经济等等,这些都是数字经济。到2022年,中国数字经济规模预估会超过60万亿。

在这个数字经济里,数据究竟扮演什么角色呢?回顾一下在整个经济发展里可能面临的问题。在另外一张图中可以更清楚地看到几个问题,首先讲为什么数据质量和数字经济有直接关联,这当中有两个观点和大家分享。我们谈的数据质量是什么?在2018年的全球数据管理论坛上有位专家提到,数据质量并不是真正数据的问题,其实更多的是业务规则问题,所以大家在处理数据质量的时候,业务规则是最重要的部分。

现在我们谈数据质量,其实有几大块,包括数据、信息语义、业务规则,但很多时候大家只看到数据本身的问题,其实更多还是数据语义的问题,以及业务规则问题。刚才前面几位嘉宾也提到了,我们要怎样保证数据定义的一致性、保证业务体验的一致性?在讲数据质量问题的时候,这些是不容易衡量的。

再看一下,数据质量是怎样影响到整个数字经济的?

首先,在数据治理中,数据质量未来是一个很大的市场。大数据应用为什么需要考虑到数据治理的问题?就是因为数据质量问题是由大数据应用产生所致,现在才回过头来看数据治理的问题;接着是人工智能,这里面包括数据算法、算力,后面会有几个例子说明在这个行业中是如何受到数据质量的影响;最后是现在比较热门的物联网。这就是数据质量在这几个领域里的影响力。

这张是关于AI的,左边说明了有关IBM沃森的失败,那么为什么它会失败?我不知道大家有没有研究过,华矩科技在这个问题上写过一篇论文,是对IBM沃森为什么现在不存在的分析,可以说这也是人工智能的一个挫败案例。沃森在中国刚开始的时候,最早落地在天津人民医院。人工智能取决于提供的数据质量,假如说数据质量不行,AI这个行业的发展就会受到很大的影响。IBM的沃森当时和癌症中心的合作,其实它最大的投入是在病例数据的整理,但是最后都没有办法实现最终的算法训练,所以导致失败。上图中可以看到,高质量的数据如何让算法更加精准,当然这里讲的是一个风控的算法,但核心意思在于:人工智能的发展中离不开高质量的数据,否则这个行业会受到非常大的影响。现在也有无人汽车驾驶、脸部识别、语音识别以及非结构化的做法,其实这些都需要大量的高质量数据去训练这个算法的。

第二个例子,流通要素与数据资产评估,大数据为什么能成为生产要素?首先是能够定价,虽然现在国内已经有很多大数据交易市场,但它们都是如何运转下去的呢?在今年华矩科技举办的数据质量管理国际峰会上,我们请到了工信部的前部长,他提出一个问题:目前行业没有办法对数据进行定价,而且这是一个极其难的问题。也就是说如何对数据进行定价成为非常重要的问题。其中数据质量是一个很关键的维度,这个维度的规范化没有实现,数据定价的问题就永远没有办法绕过去,这是其中的一点。在数据资产估值中,会看两方面的问题,左边是数据分析能力,右边是数据量和数据质量,这也间接论证了刚才提到的人工智能的发展。人工智能的发展取决于数据分析的能力,但是数据分析的能力,往往是在数据量和数据质量方面上不去,导致中间的轴线也会上不去,这也是在做数据资产评判时的一个关键要素。

上图是今日分享的第三个点:数据质量驱动业务创新。我们希望数据质量不仅仅是给AI保驾护航,以及数据资产定价。我们更希望它能够带来新的业态创新,这才是我们现在所讲的大数据价值。在这里分享几个案例,重点解释如何通过数据治理来实现类似业务在原有品质下得到升华。为什么挑了这四个案例呢?因为分别代表着不同的行业,前面两个可能更像是供应链的管理,后面是IoT,说明如何通过IoT的数据来进行烟感器的分析,最后一个是金融的。

上图是有关供应链优化的问题,图上有好多场景。刚刚清华的张老师也提到,数据治理是要有目标的,以目标来推动数据治理的方向,这是很重要的一点。这里面有四个场景,都是华矩的客户提供的,包括为什么要做契合度及不同角度的分析,其实就是因为数据质量不行,所以才需要去提升数据质量。当然,这里面的例子是说通过精准的数据找到供应商和建立供应商的信用。刚才华为的同事有提到,我们怎样寻找供应链里合适的供应商?那这里面有一个很关键的问题,假如说在你的产品数据不唯一的时候,你可能没有办法找到你所需要的供应商。在数据分析里,可能根本没有纳入到分析的目标数据,这是一个场景。

上图的案例是关于集采比价系统,说明如果没有建立“快省准”的数据质量优化技术,很多事情就需要耗费大量人力与成本,相信很多企业都会面临这样的困境,这是一个通用性的问题。这里的例子都是说明如何通过自动化技术实现规则选定,包括不同的品牌如何选定,哪类是标品?以及如何通过系统来实现这样的问题?等等。当然,这其中数据质量是核心技术。

 

第三个案例是做债券评估的体系,这个体系里有一个很重要的技术,就是债券的统一视图,假如说没有办法做统一视图的精准化,精准评价是没有办法实现的。

第四个案例,这也是非常有意思的案例,大家可能不知道烟感器,我们也是通过做项目之后,才知道烟感器有一个指标,就是误报率是高还是低。但是误报率有时候物理的属性是解决不了问题的,因为这和传感器的敏感度有关系,和材料及设备有关。但是可以通过大数据分析,包括对一些妨碍判断的数据甄别,并修正有关数据质量所导致的问题,降低误报率。

最后,我介绍一下华矩科技。华矩科技是专注于数据质量领域的一家企业。在这个领域里,我们有几个追求,也是我们的定位:第一,安全可靠。第二,快捷。我想大家在做数据的时候,其中快捷是非常重要的,因为数据的使用是有窗口时间的,如果不考虑窗口时间去讨论数据的架构和实现是没有意义的,这点很重要,因为时间不等人,必须要有快捷的技术。第三,便利。我们要让业务人员能透过数据和技术人员进行对话,这也是做数据的一个非常重要的环节。假如说业务人员和技术人员没有办法进行有效的交流,是没有办法让数据的效能发挥出来的。第四,智能。刚才讲到了的好多方法,包括一些要求,其中有一点,大家在做数据质量时如何去发现规则?如果都是用人工去发现规则,那么这个窗口时间是永远上不去的,所以需要有智能,智能要靠自动化技术来发现规律和规则,这是数据质量非常重要的环节。第五,低成本。大家在做数据治理的时候,有一个非常重要的追求目标,就是如何能够降低成本,这也是最重要的一点,否则你的立项不会被批准,你的项目也没有办法成功。

在这里,非常高兴能够和各位分享华矩科技过往在数据质量方面的探索,也欢迎各位有机会可以多多交流,谢谢各位!

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页