第58届国际计算语言学协会会议(ACL 2020)有哪些值得关注的论文?

作者:魏哲培
链接:https://www.zhihu.com/question/385259014/answer/1141621197
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

宣传一下我们在关系三元组抽取方向的一篇工作:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian and Yi Chang. To appear in ACL 2020. [arxiv]

关系三元组抽取(Relational Triple Extraction, RTE),也叫实体-关系联合抽取,是信息抽取领域中的一个经典任务,旨在从文本中抽取出结构化的关系三元组(Subject, Relation, Object)用以构建知识图谱。有时也与关系分类(Relation Classification, RC)任务统称为关系抽取(Relation Extraction, RE)。个人理解,RC与RTE的主要区别在于:RC是在给定实体对和输入文本的情况下,抽取出实体对在句子中所表达的关系;而RTE则是在仅给定输入文本的情况下,抽取出包含在文本中的所有可能的关系三元组。刘知远老师

@zibuyu9

的团队已经在关系抽取领域做了大量优秀的工作,对这个方向感兴趣的同学可以关注一下刘老师团队在关系抽取领域的最新综述

下面简单介绍一下我们这篇工作的内容,欢迎各位NLPer交流意见以及批评指正~

近年来,随着NLP领域的不断发展,在简单语境下(例如,一个句子仅包含一个关系三元组)进行关系三元组抽取已经能够达到不错的效果。但在复杂语境下(一个句子中包含多个关系三元组,有时甚至多达五个以上),尤其当多个三元组有重叠的情况时(如图1所示),现有SOTA模型的表现就显得有些捉襟见肘了。

图1. 根据不同的重叠情况将句子划分为三种类型。Normal表示三元组之间无重叠;EPO(Entity Pair Overlap)表示三元组之间共享同一个实体对;SEO(Single Entity Overlap)表示三元组之间仅共享一个实体。注意在某些复杂的情况下,一个句子可能既是EPO类型,同时也是SEO类型。

(ps: 昆汀的粉丝在哪里~XD~)

以往的方法大多将关系建模为实体対上的一个离散的标签,这也是一种非常符合直觉的做法:首先通过命名实体识别(Named Entity Recognition, NER)确定出句子中所有的实体,然后学习一个关系分类器在所有的实体对上做RC,最终得到我们所需的关系三元组。然而这种Formulation在多个关系三元组有重叠的情况下会使得关系分类成为一个极其困难的不平衡多分类问题,导致最终抽取出的关系三元组不够全面和准确。

在本文中我们提出了一个新的Formulation,以一种新的视角来重新审视经典的关系三元组抽取问题,并在此基础上实现了一个不受重叠三元组问题困扰的CasRel标注框架(Cascade Binary Tagging Framework)来解决RTE任务。CasRel框架最核心思想是,我们把关系(Relation)建模为将头实体(Subject)映射到尾实体(Object)的函数,而不是将其视为实体对上的标签。具体来说,我们不学习关系分类器 f(s,0)->r,而是学习关系特定的尾实体标注器 ,每个标注器都将在给定关系和头实体的条件下识别出所有可能的尾实体。在这种框架下,关系三元组抽取问题就被分解为如下的两步过程:首先,我们确定出句子中所有可能的头实体; 然后针对每个头实体,我们使用关系特定的标注器来同时识别出所有可能的关系和对应的尾实体。CasRel框架整体结构如图2所示。

图2. 本文所提出的CasRel标注框架结构概览

在图2中,我们借助图1的SEO例句,展示了CasRel框架抽取关系三元组的具体过程。可以看到,Subject标注器抽取出了三个候选的头实体,而此时Object标注器中显示的0/1标签状态仅对应于第一个头实体Jackie R. Brown,也就是k=1时的迭代状态快照。对于后续的迭代(k=2, 3),Object标注器的结果将根据不同的关系三元组发生相应的变化。例如,当k=2时,Object标注器中的橙色(绿色)的小块将分别更改为0(1),以对应于第二个候选头实体Washington引导的关系三元组(WashingtonCapital_ofUnited States of America)。经过多次迭代,CasRel框架将抽取出文本中所有的关系三元组。可以发现,无论句子中存在何种重叠模式的关系三元组,均不会影响CasRel的抽取过程。

我们在NYT和WebNLG数据集上与现有主要致力于解决重叠三元组问题的方法进行了全面的比较,并取得了令人惊讶的提升。在附录中我们也展示了在更多的数据集上与最近的12种Strong Baselines的比较情况,实验结果表明,即使在数据集仅包含少量重叠三元组的情况下,我们的方法也取得了优异的表现。简言之,通过将关系建模为函数,我们的方法在多个场景下均改善了关系三元组抽取的性能,尤其在现有方法难以解决的重叠三元组问题上取得了较大的提升,同时也为解决RTE任务提供了一个新的视角和参考,希望对相关领域的小伙伴们有所帮助。

更多细节和实现代码请参见论文及Github仓库。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值