【AdaSeq论文解读】ICLR 22-EntQA:通过问答范式进行实体链接

论文标题:

EntQA: Entity Linking As Question Answering

论文链接:

arxiv.org/abs/2110.02369

1. 论文动机

首先,介绍一下这篇论文针对的任务场景,这篇论文考虑的是实体链接的一般形式,即端到端实体链接(End-to-End Entity Linking),给定一段文本和一个特定的知识库,模型需要同时“定位出实体提及(mention)在文本中的具体位置”以及“将定位到的实体提及准确链指到知识库中的实体(entity)的id”。

之前的相关工作处理这一任务,通常都是将其拆分为两个子任务,即提及检测(mention detection, MD)和实体消歧(entity disambiguation,ED),我们将这一类方法简称为“MD->ED”范式。一般来说,“MD->ED”范式的工作机制就是首先让模型从句子抽取出可能是实体的短语片段,然后使用消歧模型将这些抽取出来的短语片段链指到知识库的具体实体上去。

论文作者指出了“MD->ED”范式这一类方法的不足和天然缺陷:它们需要模型在不知道是什么实体的情况下,去发现文本中的实体提及。这一要求或者说是限制其实是很不自然的,因为从定义的角度来说,确定一个实体提及的前提是要先确定一个实体(即这个提及是提到的什么实体?)。论文作者认为这一限制很大程度上导致了之前的“MD->ED”范式的模型遇到了很大的困难,例如,这类任务长期想要解决的一个经典的困境就是:如何减小这两个子任务之间的错误传播问题?因为明显MD是要比ED更难的任务。

为了解决上述困境,论文作者提出将ED任务放在MD任务之前来做。简单来说,给定一段文本,他们首先去寻找可能出现在这一文本中的候选实体,然后对于每一个候选实体,再去这一文本中抽取其相应的实体提及。支持这一改动的主要观察和根据是,没有实体信息去抽取提及位置是困难的,但是没有提及位置信息去寻找文本相关的实体却是相对简单的。因此,这样一个直觉且自然的改动从根本上解决了上文中提到的“MD->ED”范式之前所面临的困境。

2. 模型设计

基于前文中的动机,这篇论文将端到端实体链接任务建模成了反向的开放域问答任务(inverted Open- Domain QA)。具体来说,给定一篇文档,作者先使用双塔检索模型(dual encoder retriever)以这篇文档为query去给定的知识库中检索出top-K的候选实体,并将这些候选实体视作QA任务中“question”。然后,对于每个“question”,使用cross-attention形式的reader来找出具体的实体提及。这就是这篇文章所提出的EntQA的模型设计思路。

上述模型设计思路有如下的优势和好处:(1)EntQA的提出使得研究者可以将稠密实体检索和开放域QA任务上的最新研究进展借鉴迁移到实体链接任务上来,这一范式迁移对于实体链接任务的发展是意义巨大的。例如,在EntQA中使用BLINK和ELECTRA等模型很轻松地获得了大幅的性能提升。(2)EntQA于之前的实体链接模型不同,它不需要依赖一个提前准备好的硬编码的“提及-实体”映射字典,因为映射字典的构建这件事本身只适合在有丰富资源的领域和场景开展,没有了这一束缚,使得EntQA可以拥有更广泛的应用场景。(3)EntQA的训练过程非常高效,并不需要大规模的工业级的预训练(如之前的GENRE一样)。下面我们主要介绍EntQA的Retriever和Reader的工作机制:

2.1 检索器

给定一个文档x中的一个段落p和一个实体库中的实体e,检索器会按照如下的方式计算检索得分:

其中,topic是指该文档的主题(具体实验中作者使用每一个文档的第一个token作为该文档的主题),title是指实体在wikipedia中的title,desc是指实体在wikipedia中的description。具体实践中,论文推荐使用Faiss库来进行快速的top-K检索。

l 检索器的训练:

作者使用NCE的多标签形式来训练检索器。具体检索器的训练目标如下:

其中,是指文档x中出现的gold实体, 是指训练中使用的负样本实体。在具体实践中,作者还使用可困难负样本挖掘(hard negative mining)策略,这是一个已经被广泛证明对于实体检索任务有效的经验。

2.2 阅读器

假定检索器已经获得了top-K的候选实体集合,对于每一个候选实体,阅读器会按照如下的公式来计算联合编码:

根据上述联合编码,则可以计算实体对应的提及的条件概率分布如下:

其中, 是可学习的额外参数。此外,阅读器还会计算每一个候选实体的重排序概率:

l 阅读器的训练:

在训练过程中,作者总是保证所有的gold实体都包含在传入阅读器的候选实体集合中,具体阅读器的训练目标如下:

其中,代表实体在段落中的所有gold提及。

3. 实验结果

作者正在GERBIL基准平台上测试了EntQA的效果,结果如下:

可以看出,EntQA在In-domain的设置下,超过了之前的SOTA方法F1 score 2.1个点,包括out-of-domain在内8个数据集的平均结果相较于之前的SOTA方法,在F1 score上也有2.3个点的提升。

4. 论文总结

之前的实体链接方法面临着在不知道相应实体的情况下不得不预测提及的困境。这篇论文提出了 EntQA,它通过“先预测候选实体然后找到它们在文本中的具体提及“来解决这个难题。EntQA解决方案的提出充分地将文本检索和阅读理解方面的最新研究进展利用到了实体链接任务当中,这其实是如今NLP各任务间范式迁移的又一成功范例。

如对相关技术比较感兴趣,欢迎关注我们的「AdaSeq序列理解技术」专栏,github主页,加入我们的钉钉 (4170025534) 进行技术交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值