知识图谱数据构建的“硬骨头”，阿里工程师如何拿下？

最新推荐文章于 2022-11-28 13:43:56 发布

阿里技术_

最新推荐文章于 2022-11-28 13:43:56 发布

阅读量7.4k

点赞数 5

本文链接：https://blog.csdn.net/b0Q8cpra539haFS7/article/details/79549610

版权

本文介绍了神马搜索团队在知识图谱构建中，如何应对关系抽取的挑战，特别是利用DeepDive系统进行远程监督学习，改善有监督学习的标注难题。文章详述了DeepDive的工作流程、中文NLP标注的改进、主语自动增补、输入过滤策略以及实体对到多实体扩展等方面的应用，展示了在神马知识图谱构建中的实际效果和改进措施。

摘要由CSDN通过智能技术生成

阿里妹导读：搜索“西红柿”，你不但能知道它的营养功效、热量，还能顺带学会煲个牛腩、炒个鸡蛋！搜索引擎何时变成“暖男”了？原来背后有“知识图谱”这个强大的秘密武器。

作为近年来搜索领域和自然语言处理领域的热点，知识图谱正引领着搜索引擎向知识引擎的转变。在阿里的“神马搜索”中，知识图谱及其相关技术的广泛应用不仅能帮助用户找到最想要的信息，更能让用户有意想不到的知识收获。

背景简介

为了不断提升搜索体验，神马搜索的知识图谱与应用团队，一直在不断探索和完善图谱的构建技术。其中，开放信息抽取（Open Information Extraction），或称通用信息抽取，旨在从大规模无结构的自然语言文本中抽取结构化信息。它是知识图谱数据构建的核心技术之一，决定了知识图谱可持续扩增的能力。

“神马搜索”界面

本文聚焦于开放信息抽取中的重要子任务——关系抽取，首先对关系抽取的各种主流技术进行概述，而后结合业务中的选择与应用，重点介绍了基于DeepDive的方法，并详述它在神马知识图谱数据构建工作中的应用进展。

关系抽取概述

关系抽取技术分类

现有的关系抽取技术主要可分为三种：

有监督的学习方法 ：该方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料，而语料标注工作通常非常耗时耗力。
半监督的学习方法 ：该方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系，该方法首先手工设定若干种子实例，然后迭代地从数据从抽取关系对应的关系模板和更多的实例。
无监督的学习方法 ：该方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系，并对所有实体对的语义关系进行聚类。

这三种方法中，有监督学习法因为能够抽取并有效利用特征，在获得高准确率和高召回率方面更有优势，是目前业界应用最广泛的一类方法。

远程监督算法

为了打破有监督学习中人工数据标注的局限性，Mintz等人提出了远程监督（Distant Supervision）算法，该算法的核心思想是将文本与大规模知识图谱进行实体对齐，利用知识图谱已有的实体间关系对文本进行标注。远程监督基于的基本假设是：如果从知识图谱中可获取三元组R（E1，E2）（注：R代表关系，E1、E2代表两个实体），且E1和E2共现与句子S中，则S表达了E1和E2间的关系R，标注为训练正例。

远程监督算法是目前主流的关系抽取系统广泛采用的方法，也是该领域的研究热点之一。该算法很好地解决了数据标注的规模问题，但它基于的基本假设过强，会引入大量噪音数据。例如，从知识图谱获取三元组：创始人（乔布斯，苹果公司），下表句1和句2正确表达了该关系，但句3和句4并没有表达这样的关系，因此对句3和句4应用基本假设时会得到错误的标注信息。这个问题通常称为 the wrong label problem。

出现 the wrong label problem 的根本原因，是远程监督假设一个实体对只对应一种关系，但实际上实体对间可以同时具有多种关系，如上例中还存在CEO（乔布斯，苹果公司）的关系，实体对间也可能不存在通常定义的某种关系，而仅因为共同涉及了某个话题才在句中共现。

为了减小 the wrong label problem 的影响，学术界陆续提出了多种改进算法，主要包括：

基于规则的方法：通过对wrong label cases的统计分析，添加规则，将原本获得正例标注的wrong label cases直接标为负例，或通过分值控制，抵消原有的正标注。
基于图模型的方法：构建因子图（factor graph）等能表征变量间关联的图模型，通过对特征的学习和对特征权重的推算减小wrong label cases对全局的影响。
基于多示例学习（multi-instance learning）的方法：将所有包含（E1，E2）的句子组成一个bag，从每个bag对句子进行筛选来生成训练样本。此类方法最早提出时假设如果知识图谱中存在R（E1，E2），则语料中含（E1，E2）的所有instance中至少有一个表达了关系R。一般与无向图模型结合，计算出每个包中置信度最高的样例，标为正向训练示例。该假设比远程监督的假设合理，但可能损失很多训练样本，造成有用信息的丢失和训练的不充分。为了能得到更丰富的训练样本，又提出了multi-instance multi-labels的方法。该方法的假设是，同一个包中，一个sentence只能表示（E1，E2）的一种关系，也就是只能给出一个label，但是不同的sentence可以表征（E1，E2）的不同关系，从而得到不同的label。多label标注的label值不是正或负，而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。另一种改进的方法是从一个包中选取多个valid sentences作为训练集，一般与深度学习方法相结合，这种方法更详细的讲解和实现会安排在后续介绍深度学习模型的章节中。

神马知识图谱构建中的关系抽取方法选择

知识图谱的数据构建，就数据源而言，分为结构化数据，半结构化数据和无结构数据三类。其中，无结构数据是最庞大、最易获取的资源，同时也是在处理和利用方面难度最大的资源。神马知识图谱构建至今，已经发展为一个拥有近5000万实体，近30亿关系的大规模知识图谱。在经历了前期以结构化和半结构化数据为主的领域图谱构建阶段，神马知识图谱的数据构建重点已经逐渐转移为如何准确高效地利用无结构数据进行实体与关系的自动识别与抽取。这一构建策略使得神马知识图谱在通用领域的建设和可持续扩增方面有很强的竞争力。

远程监督算法利用知识图谱的已有信息，使得有监督学习中所需的大规模文本标注成为可能。一方面，远程监督在很大程度上提升了有监督学习关系抽取的规模和准确率，为大规模的知识图谱数据构建和补充提供了可能；另一方面，远程监督对现有知识图谱的数据和规模有较强的依赖，丰富的标注数据对机器学习能力的提升有很大帮助。为了充分利用知识图谱规模和远程监督学习这种相辅相成的特性，在神马知识图谱的现阶段数据构建业务中，我们采用了以图谱现有的大规模实体与关系数据为依托，以远程监督算法为工具的关系抽取技术。

在上一章的综述中，我们介绍过多种基于远程监督思想的改进方法。在具体的业务实现中，我们选取了领域内与业务需求最为契合的两种代表性方法：基于DeepDive的抽取系统和基于深度学习抽取算法。两种方法相辅相成，各有优势：DeepDive系统较多依赖于自然语言处理工具和基于上下文的特征进行抽取，在语料规模的选择上更为灵活，能进行有针对性的关系抽取，且能方便地在抽取过程中进行人工检验和干预；而深度学习的方法主要应用了词向量和卷积神经网络，在大规模语料处理和多关系抽取的人物中有明显的优势。在下面的章节中，我们来更详细地了解这两种方法的实现与应用。