知识库问答中的关系识别研究回顾

本文回顾了知识库问答中的关系识别研究,探讨了关系识别的难点,如表述多样性、隐式关系推断、含义上下文相关性等。当前方法主要包括谓词词典和神经网络模型,如注意力卷积神经网络、BiLSTM 和预训练模型BERT的应用。研究表明,词嵌入和预训练模型能提供更好的关系识别效果,但也面临未知关系的挑战。未来研究方向包括提高词典质量和构建关系表示适配器。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|舒意恒

学校|南京大学硕士生

研究方向|知识图谱

知识库是用于知识管理的特殊数据库,通常由大量三元组构成,三元组形如(奥巴马,出生于,火奴鲁鲁),三者分别是三元组的 subject、predicate 和 object(主语、谓词和宾语),其中谓词也可被称作关系。

知识库问答尝试构建利用知识库信息的问答系统,关系识别是知识库问答中的重要环节,即识别出自然语言问题中所提及的知识库谓词(关系),将自然语言描述与知识库中的谓词联系起来。本文盘点近年来部分关于知识库问答关系识别的研究。

首先,我们需要了解关系识别这一问题的难点,在自然语言对关系的描述中,通常存在以下现象:

  • 表述形式多样:例如“be famous for”和“known for”两个短语,虽然在字面上的相似度很低,但实际上在语义上相近。关系的描述不同于实体,可能不局限于短语的形式,还可能是由包含连词、介词等的搭配描述。

  • 隐式关系可能需要推断,例如“Which Americans have been on the moon?” 其中 Americans 表示一个针对“出生”的额外的约束,但句中没有“is born”这类显式的约束。

  • 含义与上下文相关:同一谓词在不同的语境中可能表示不同的含义,需要我们在识别关系时利用整个句子的上下文信息。

  • 测试集中的未知关系:在训练模型时,训练集中包含的关系数量总是有限的,测试集中可能包含大量模型没有学习过的关系。

  • 正负样本的生成:对于一个句子,正确的关系链接结果可能只有数个,而关系链接工具却可能产生远超过这个数量的错误的关系链接候选作为负样本。对于一个分类模型,如何平衡正负样本的数量,如何提升负样本的质量,值得讨论。

而当前关系识别的基本思路,大体上至少包括:

  • 谓词词典:词典即通过算法生成或人工编写的数据,可直接为关系识别的算法所用。在 NLP 研究中,有单词到单词的词典,短语到短语的词典,但此处特指的是谓词到短语的词典。

  • 神经网络方法:相比词典而言,神经网络方法具有更好的模糊匹配和应对未知输入的能力。

需要注意的是,无论是谓词词典还是神经网络方法,它们的构建都是基于有限的谓词信息,对于没有见过或者没有学习过的关系,识别的性能可能会相对下降,且不同的方法所适用的知识库也可能是不同的。而对于神经网络方法来说,经过预训练的词嵌入模型能够提供一定的超越训练数据的泛化能力。

下面,本文将从四方面简介现有的关系识别的研究。

  1. 简单问答系统中的关系识别模型

  2. 词嵌入方法在关系识别中的应用

  3. 谓词词典在关系识别中的应用

  4. 未知关系的识别

简单问答系统中的关系识别模型

简单问答在此处指的是没有约束或聚合操作的,通过找到问题中所述的实体和关系,就能直接通过知识库中三元组进行回答的问答任务。在简单问答的过程中,实体和关系的链接是最关键的问题,是找到知识库中相关三元组无法回避的问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值