论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架

论文笔记整理:王中昊,天津大学。


来源:ACL2020

链接:https://arxiv.org/pdf/1909.03227.pdf

摘要

从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,对于同一句子中的多个关系三元组共享同一个实体的重叠三元组问题,现有的研究很少。在这项工作中,我们引入了一个新的视角来重新审视关系三元组抽取任务,并从一个原则性的问题出发,提出了一个新的级联二进制标记框架(CASREL)。我们的新框架不再像以前的工作那样把关系看作是离散的标签,而是将关系建模为将句子中的主语映射到宾语的函数,这样就很自然地解决了重叠问题。实验表明,CASREL框架在编码模块使用随机初始化的BERT编码器时,其性能已经超过了最先进的方法,显示了新标签框架的强大功能。当使用预训练的BERT编码器时,它的性能得到了进一步的提升,在两个公共数据集NYT和WebNLG上,它分别比最强基线的F1分数提高了17.5和30.2个百分点。对重叠三元组的不同场景的深入分析表明,该方法在所有这些场景中提供了一致的性能增益。

CASREL框架

关系三元组抽取的目的是识别句子中所有可能的(主语、关系、宾语)三元组,其中一些三元组可能与主语或宾语共享相同的实体。为了实现这个目标,我们直接对三元组进行建模,并在三元组的层次上设计一个训练目标。这与以前的方法(Fu et al.,2019)不同,前者通过实体和关系来定义训练目标,而没有在三元组的层次上对他们进行明确的建模。

形式上,给定训练集D中的注释语句xj和xj中一组潜在重叠的三元组Tj={(s,r,o)},我们的目标是使训练集D的数据可能性最大化:

      

这里我们稍微滥用了符号Tj。s∈Tj表示出现在Tj三元组中的主语。Tj | s是Tj中主语s引导的三元组。(r,o)∈Tj | s是Tj中主语s引导的三元组中的(r,o)对。R是所有可能关系的集合。R\Tj | s表示除Tj中以s为首的所有关系。o表示“空”宾语(解释如下)。

式(2)应用概率链式法则。式(3)利用了一个关键事实:对于给定的主语s,任何与s相关的关系(Tj | s中的关系)都会对应句子中相应的宾语,而所有其他关系在句子中必然没有宾语,即“空”宾语。

这个公式有几个好处。首先,由于数据的似然性是从三元组层次开始的,优化这个似然性相当于在三元组层次上直接优化最终的评价标准。其次,通过不假设多个三元组如何共享一个句子中的实体,它通过设计来处理重叠的三元组问题。第三,式(3)中的分解启发了一种新的三元组抽取标记方案:我们学习一个主语标记符p(s | xj),它识别句子中的主语实体;对于每个关系r,我们学习一个宾语标

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值