数据资产盘点,是一个将数据资源进行标准化、产品化、服务化的过程。没有经过这个过程的数据,仅仅只能是数据资源,就像原油;经过资产盘点,有口径、有溯源、有案例场景,有服务接口,用户才能“看得到、用得上、能放心”。
然而,企业在实际的工作中,面对大量的存量数据资源和有限的数据标准,这是一个N:1的过程。这个过程,如果没有在这些系统建设之初就进行建模管控,形成标准资源的1:N机制,那么反推回来,要让N个数据资源项被找到、对齐数据标准,会是一项困难的工作。在这个时候,就必须使用智能化的工具,部分替代人工的识别和评估。
今天的周周谈,我们就从实际工作经验方面总结一下,如何在一个大规模存量系统的环境中,实现这个对标过程。其核心就是:一套业务领域词库和向量库、一套匹配算法、一套对标过程的人工+AI的工作机制。
01
数据资产盘点
数据标准是信息架构的重要组件之一,站在全局角度,设置统一的数据标准对企业的业务发展、风险防控、内部管理与风险合规具有重要意义。在开展存量数据治理中,由于企业数据来源不一,既有在业务发展中积累的数据,也有通过外部合作获取的第三方数据,且分布在不同的业务系统中。
这些数据纷繁复杂、数量庞大且存在冗余,由于历史原因,不同系统的库表字段由不同的业务部门组织开发,采集到的元数据面临着“同义不同名”等问题。将大量的元数据准确映射到数据标准有助于摸清数据资产的“家底”,以便未来进行数据管理与应用。然而由于采集到的元数据数量动辄上百万项,过于庞大的数量让资产盘点面临着艰巨挑战,无法在短期内由人工完成。
图1 数据资产管理
借助自然语言处理(NLP)等技术支持,将算法与规则嵌入到映射过程,是实现智能对标、提升盘点效率与保证盘点质量的有效手段。
图2 元数据对标
02
智能对标引擎搭建
工欲善其事,必先利其器,智能对标引擎是实施数据资产盘点的重要工具。由于元数据中文名称与数据标准中文名称都为长字段或长短语,智能对标引擎首先要解决长短语的模糊匹配问题,其次,在名称一致或模糊匹配成功后,对元数据的数据类型、数据长度、枚举值或数据约束等信息与数据标准进行一致性与关联性校验,校验通过后即完成由元数据到数据标准的映射即对标过程。
我们把问题分解完成后,开始着手智能对标引擎开发,详细搭建过程如下:
1.语料库与词向量
首先根据元数据业务系统所属的特定领域收集相应的语料库(语料库指经科学取样和加工的大规模电子文本库,其中存放的是在语言实际使用中真实出现过的语言材料),我们利用语料库进行词向量(Word2Vec)模型的训练与搭建。词向量是语料库经分词后产生的词语或短语在数学意义上的向量化表示,它让我们能够从几何的角度理解语义,并进行可视化,是一种从抽象到具体的过程。词向量模型的训练基于如下假设:相同上下文语境的词具有相同或相似含义。
图3 词汇的上下文语境
例如“客户号”与“客户编号”两个词语指的是客户的同一属性,具有相同语义且经常出现在相同的上下文语境中,通过计算这两个词汇的词向量距离或夹角,能够揭示二者相近或相等的关系。在更复杂潜在关系的表达上,词向量同样可以做到。例如,King(国王)属于Man(男性),Queen(王后)属于Woman(女性),词向量可以建立如下图所示的空间向量关系。
图4 词向量空间
2.相似度计算
词向量模型搭建完成后,我们解决了词语或短语之间的相似度计算,然而距离我们对标的长短语之间的相似度计算尚有差距。词语或短语的长度一般在5或以下,可以直接利用词向量模型计算相似度,而长短语的长度一般在6至15的区间范围内,只能间接利用词向量进行相似度计算。
例如“理财产品交易申请日期”这样的长短语无法直接用词向量表示。一种常见的想法是把长短语分词为“理财产品”、“交易”、“申请日期”,然后利用这三个词汇的词向量进行加权,求得长短语的加权向量,这样的方法在计算长短语相似度方面的效果并不理想,达不到对标要求的精度,往往还需要人工进行大量复核。
3.词移距离与编辑距离
我们通过多种算法组合进行大量尝试对比后,最终发现基于词向量模型的词移距离(Word Mover's Distance,WMD)与编辑距离算法(Edit Distance)的组合取得了相当好的效果,在特定相似度阈值p以上可以实现元数据与数据标准的准确映射,而且无需人工干预与复核。
词移距离(WMD)利用词向量提取到的词语语义特征来计算两个长短语之间的相似度,即以组成长短语集合的词语到另一个长短语集合词语的距离,来表示长短语之间的相似度。接下来看一下词移距离(WMD)具体的模型。
WMD是通过将一个文档(长短语)中包含的词语“移动”(Travel)到另一个文档(长短语)中的词语,这个“移动”过程产生的距离总和的最小值作为词移距离。WMD距离越大相似度越小,WMD距离越小相似度越大。举个例子,两个短文本“Obama speaks to the media in Illinois”(“奥巴马在伊利诺斯州向媒体发表讲话”)、“The President greets the press in Chicago”(“总统在芝加哥迎接新闻记者”),那么从第一个句子转移到第二个句子的示意图如下(已去除停用词):
图5 转移示意图
针对示意图中的词移距离则表示为:
Distance("Obama"->"President")
+ Distance("speaks"->"greets") + ...
那么词到词之间的距离,即如 Distance("Obama"->"President")该怎么计算呢?很明显我们第一步的词向量模型已经为此做好了铺垫。
当然我们在实际使用中是让第一个句子中的词以不同的权重转移到另一个句子的所有词上,如下图所示,读者若有兴趣可查阅相关资料,在此不做过多展开。
图6 加权转移示意图
通过词移距离可以计算长短语之间的相似度,在长短语词序的平衡上我们又引入了编辑距离来修正。在元数据名称与数据标准名称的匹配前我们一般会配置相应规则将名称中包含的特殊符号与混杂的枚举值进行剔除,进行字母的大小写进行一致转换等操作。
以上过程解决了对标所需的长短语间的模糊匹配问题,名称匹配完成后,对元数据的数据类型、数据长度、枚举值或数据约束、所属业务域等剩余信息与数据标准进行关联校验,此校验一般根据具体需求建立在规则配置之上,校验通过后即完成由元数据到数据标准的智能对标过程。
表1 智能对标结果示意图
03
智能对标扩展应用
智能对标引擎搭建完成后,将采集到的元数据与数据标准建立映射关系,纳入统一管理与应用。对智能对标工具进行持续优化与迭代,定期对业务系统进行全量智能数据对标,加强新增落标项目的重复项检查,避免重复落标,对实现数据接口管控、推动数据治理进程具有重要意义。
智能对标模型进行改造后可进行大量的扩展应用,如实现业务术语、数据标准、物理字典的相似检测、词义消歧、去除重复项等质量提升工作。也可应用于数据标准库、业务术语知识库等知识图谱的智能搜索,实现知识含义之间的关联与知识推导。例如,通过调用维基百科API等大型知识库,进行业务术语语义关联,实现术语的标准化与业务定义的丰富,最终完善业务逻辑关联助力数据消费,是我们进行的新的尝试。
04
小结
数据治理离不开自动化、智能化工具的支持与保障。借助人工智能等科技手段,将算法融入数据标准与元数据管理,是提升数据治理效率与保障数据治理质量的必然要求。
机器学习、深度学习、自然语言处理等人工智能技术,是数据治理的加速剂。挖掘更多的算法应用,推进数据治理进程的自动化、智能化、高质量与高效率,是我们一直努力的目标。
参考文献
[1] 美国DAMA国际.DAMA数据管理知识体系指南(第二版)[M]. 北京:机械工业出版社,2020:320-345.
[2] From Word Embeddings To Document Distances.Matt Kusner, Yu Sun, Nicholas Kolkin, Kilian Weinberger Proceedings of the 32nd International Conference on Machine Learning, PMLR 37:957-966, 2015.
以上文章来源于数据治理周周谈 ,作者刘峰