©PaperWeekly 原创 · 作者|舒意恒
学校|南京大学硕士生
研究方向|知识图谱
知识库是用于知识管理的特殊数据库,通常由大量三元组构成,三元组形如(奥巴马,出生于,火奴鲁鲁),三者分别是三元组的 subject、predicate 和 object(主语、谓词和宾语),其中谓词也可被称作关系。
知识库问答尝试构建利用知识库信息的问答系统,关系识别是知识库问答中的重要环节,即识别出自然语言问题中所提及的知识库谓词(关系),将自然语言描述与知识库中的谓词联系起来。本文盘点近年来部分关于知识库问答关系识别的研究。
首先,我们需要了解关系识别这一问题的难点,在自然语言对关系的描述中,通常存在以下现象:
表述形式多样:例如“be famous for”和“known for”两个短语,虽然在字面上的相似度很低,但实际上在语义上相近。关系的描述不同于实体,可能不局限于短语的形式,还可能是由包含连词、介词等的搭配描述。
隐式关系可能需要推断,例如“Which Americans have been on the moon?” 其中 Americans 表示一个针对“出生”的额外的约束,但句中没有“is born”这类显式的约束。
含义与上下文相关:同一谓词在不同的语境中可能表示不同的含义,需要我们在识别关系时利用整个句子的上下文信息。
测试集中的未知关系:在训练模型时,训练集中包含的关系数量总是有限的,测试集中可能包含大量模型没有学习过的关系。
正负样本的生成:对于一个句子,正确的关系链接结果可能只有数个,而关系链接工具却可能产生远超过这个数量的错误的关系链接候选作为负样本。对于一个分类模型,如何平衡正负样本的数量,如何提升负样本的质量,值得讨论。
而当前关系识别的基本思路,大体上至少包括:
谓词词典:词典即通过算法生成或人工编写的数据,可直接为关系识别的算法所用。在 NLP 研究中,有单词到单词的词典,短语到短语的词典,但此处特指的是谓词到短语的词典。
神经网络方法:相比词典而言,神经网络方法具有更好的模糊匹配和应对未知输入的能力。
需要注意的是,无论是谓词词典还是神经网络方法,它们的构建都是基于有限的谓词信息,对于没有见过或者没有学习过的关系,识别的性能可能会相对下降,且不同的方法所适用的知识库也可能是不同的。而对于神经网络方法来说,经过预训练的词嵌入模型能够提供一定的超越训练数据的泛化能力。
下面,本文将从四方面简介现有的关系识别的研究。
简单问答系统中的关系识别模型
词嵌入方法在关系识别中的应用
谓词词典在关系识别中的应用
未知关系的识别
简单问答系统中的关系识别模型
简单问答在此处指的是没有约束或聚合操作的,通过找到问题中所述的实体和关系,就能直接通过知识库中三元组进行回答的问答任务。在简单问答的过程中,实体和关系的链接是最关键的问题,是找到知识库中相关三元组无法回避的问题