论文笔记 Entity-Relation Extraction as Multi-turn Question Answering | ACL2019

最新推荐文章于 2022-01-05 16:31:35 发布

VIP文章西洋樱草x

最新推荐文章于 2022-01-05 16:31:35 发布

阅读量1.6k

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/weixin_41297561/article/details/108101793

版权

论文链接：https://arxiv.org/pdf/1905.05529.pdf

论文作者：

Xiaoya Li∗1 , Fan Yin∗1 , Zijun Sun1 , Xiayu Li1 , Arianna Yuan1,2 , Duo Chai1 , Mingxin Zhou1 and Jiwei Li1
1 Shannon.AI
2 Computer Science Department, Stanford University

该论文是香侬科技发表在ACL2019上的一篇文章，主要思想是将实体-关系提取任务转换为多轮问答任务。

文章中指出多轮问答形式具有以下几个优点：

问题查询对我们想要识别出的实体、关系类别编码了重要信息；
问答为实体和关系联合建模提供了一种自然的方法；
能使我们很好的运用机器阅读理解（MRC）模型。

作者在ACE、CoNLL04语料上进行了实验，证明了所提出的方法比先前的SOTA模型表现要好。

另外，作者构建了新开发的中文数据集RESUME，这需要多步推理构建实体依赖，与先前数据集的三元组提取中的单步依赖提取相反。提出的多轮QA模型在RESUME上也达到了最好的性能。

介绍

实体-关系提取的目标就是将给定文本转化为结构化知识库。

例如，给定以下文本：

In 2002, Musk founded SpaceX, an aerospace manufacturer and space transport services Company, of which he is CEO and lead designer. He helped fund Tesla, Inc., an electric vehicle and solar panel manufacturer, in 2003, and became its CEO and product architect. In 2006, he inspired the creation of SolarCity, a solar energy services Company, and operates as its chairman. In 2016, he co-founded Neuralink, a neurotechnology Company focused on developing brain–computer interfaces, and is its CEO. In 2016, Musk founded The Boring Company, an infrastructure and tunnel construction Company.

我们需要提取 Person, Company, Time, Position 这四类实体以及 FOUND, FOUNDING-TIME, SERVING-ROLE 这三类关系，Table1 展示了由文本转化来的结构化数据。

现有的大多模型都是通过从文本中提取三元组列表来完成该任务的，也就是提取 REL(e1, e2) ，这代表e1、e2之间的关系为REL。

先前模型主要分为两类：

pipeline：这种方法先用tagging模型识别出实体，再用关系提取模型识别每一个实体对之间的关系；
joint：通过约束或参数共享等策略将实体和关系模型结合起来。

但在任务形式和算法上都存在一些关键问题。

在形式化方面，REL(e1, e2)三元组结构并不能完全在文本上表达数据结构，以 Musk 为例，在 tags 之间有层次依赖，时间的提取取决于职位，因为一个人可以在不同的时间段内在公司中担任多个职位；职位的提取要取决于公司，因为一个人可以为多个公司工作。

在算法方面，对于大多数现有的关系-提取模型，模型的输入是具有两个标记过实体提及的原始句子，输出是两个实体提及之间是否存在关系。在这种形式中，捕捉所有的词汇、语义、句法线索对于神经模型来说是困难的，尤其是在（1）实体离得太远；（2）一个实体涉及在多个三元组中；（3）关系跨度有重叠的情况下。

在本论文中，我们将实体-关系提取任务形式化为一个多轮问答任务：每一个实体类型和关系类型都被一个问答模板特征化，通过回答模板问题来提取实体和关系，答案是文本跨度，使用现有的标准机器阅读理解（MRC）框架来提取。为了提取 Table1 那样的结构化数据，模型需要按顺序回答下列问题：

文中指出，把实体-关系提取任务看作多轮QA任务具有如下优点：（1）多轮QA设置提供了一种可以捕捉tags之间层次依赖的方法。随着多轮QA进程，我们可以逐步获得下一轮需要的实体；（2）问题查询对于我们想要识别的关系类别编码了重要的先验信息。这种信息可以潜在的解决现有的关系提取模型所不能解决的问题，比如分隔很远的实体对，关系跨度重叠等等；（3）QA框架提供了同时提取实体和关系的一种自然方式：大多数 MRC 模型支持输出特殊的NONE，表示问题没有答案。通过这个，原始的两个任务，实体提取和关系提取可以被合并为一个单一的QA任

最低0.47元/天解锁文章

西洋樱草x

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文笔记 Entity-Relation Extraction as Multi-turn Question Answering | ACL2019

论文摘要该论文的主要思想是将实体-关系提取任务转换为多轮问答任务。多轮问答形式具有几个优点：问题查询对我们想要识别出的实体、关系类别编码了重要信息；问答为实体和关系联合建模提供了一种自然的方法；能使我们很好的运用机器阅读理解（MRC）模型。在ACE、CoNLL04语料上进行的实验证明了该方法比我们先前最好的模型表现要好，我们还构建了新开发的中文数据集RESUME，需要多步推理构建实体依赖，与先前数据集的三元组提取中的单步依赖提取相反。提出的多轮QA模型在RESU
复制链接

扫一扫