NAACL2021 | 陈丹琦又打破常规,最近流行的实体识别和关系抽取要回到最初状态?...

每天给你送来NLP技术干货!


8d07b278026bf55dc2988a0a7352ec4e.png

论文:A Frustratingly Easy Approach for Entity and Relation Extraction - NAACL2021

单位:普林斯顿大学

链接:https://arxiv.org/pdf/2010.12812.pdf

提取摘要

端到端关系抽取旨在识别命名实体并提取它们之间的关系。最近的工作将这两个子任务联合建模,要么将它们投射到一个结构化的预测框架中,要么通过共享表示执行多任务学习。

在这项工作中,作者提出了一种用于实体和关系提取的简单pipeline方法,并在标准基准(ACE04、ACE05 和 SciERC)上达到了SOTA,在关系 F1 上与具有相同预训练编码器的先前联合模型相比获得了 1.7%-2.8% 的绝对提升。该方法本质上建立在两个独立的编码器上,并且仅使用实体模型来构建关系模型的输入。通过一系列实验,验证了学习实体和关系的不同上下文表示、在关系模型的早期融合实体信息以及合并全局上下文的重要性。最后,作者还对该方法提出了一种更快的方法,使得在推理时只需要通过一次实体和关系编码,就能实现 8-16 倍的加速,但精度略有降低。

总结一句话就是,从之前的pipeline方法进化到多任务或者魔改为其他结构的预测(transition-based/span-based等)方法,这次又回到了原始的pipeline方法。因为丹琦认为实体识别和关系抽取使用同一个模型的话,会使得文本表示会丢失一些重要信息,最终实验也得以验证。

可见,不断创新的时候,也要时不时批判式的回头看看。

具体介绍

实体识别

4589b8a44977cde8b4528fadba5d538d.png

这里选取的实体抽取为之前介绍过的Span-based方法,即列举所有span的组合,选取最佳,表示的话为通常的三部分:span的开始,span的结束以及span的长度,即:

cb0feaadee9bdaec93b4b11032afdd4a.png

然后预测该span的是否是实体的概率。

关系抽取

9d21ff910eaa30938a6f8e6fe2f9caf7.png

关系预测的话,需要列举每一组不同实体,然后预测是否有关系以及是哪种关系的多分类问题。其中每种实体的表示依然采用上面实体抽取的span表示,这里预测关系抽取结果使用的隐层为两个实体的开始:

52415da020aeb3eea6a9948a1aaccbfe.png

其中

0bf0a86df37a66509dd788aa31e4b301.png

需要注意的是,实体识别和关系抽取所使用的预训练模型不是同一个。

损失

损失很普通,区别在于都是单独训练的:

d7360c3e23efca339cb4c616aa367e3b.png

有效的batch计算的近似方法

因为上面的关系抽取需要一个一个循环计算两两span的关系计算,太耗时,太麻烦了,所以本文提出一种可以一次性计算所有实体组合。

8304c66068c16e7521bbb9464e2773b9.png

方法就是将实体span的开始和结尾表示放到该句子的最后,然后这样就能直接一次性计算所有实体之间的关系了,其中实体符号表示为该表示的span的position embeddings:

0bdcac20d2599946c0e474b56f2f4c64.png

其次,向注意力层添加一个约束,强制文本标记只关注文本标记而不关注标记本身,而实体标记可以关注所有文本标记和与同一span对关联的所有4个标记。

实验

该方法在ACE04, ACE05, and SciERC数据集上的F1值性能比较,可以看出都达到了最佳值:

54131768306b721d15e9bc69c26d1c85.png

使用batch加速计算的速度和F1值比较,可以看出性能降低有限,速度巨幅提升:

07c8815265c68abbea7e67928f114396.png

其中,是否共享encoder是本文的一个关键,具体实验指出不使用同一个encoder下,实体性能巨幅提升,关系提升甚微,可见共用encoder的时候后面的关系抽取确实会影响前面的实体识别:

56429e57f9727697a0eeef47fabcafbf.png


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

a8ac4630c9009fc41031432f3c0dfdb5.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值