COLING 2022 | 基于token-pair关系建模解决重叠和嵌套事件抽取的One-stage框架

每天给你送来NLP技术干货!


来自:社媒派SMP

题目:OneEE:一个针对重叠和嵌套事件抽取的One-stage框架

OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

作者:曹虎(武汉大学),李京烨(武汉大学),苏方方(武汉大学),李霏(武汉大学),费豪(新加坡国立大学),吴胜琼(新加坡国立大学),李波波(武汉大学),赵亮(圣保罗大学),姬东鸿(武汉大学)

会议:COLING 2022

论文:https://arxiv.org/pdf/2209.02693.pdf

代码:https://github.com/Cao-Hu/OneEE

0d505202f6c7a5a3fe276125133430a0.gif

8f7ae8a31cf78070508eeeb6ad12030d.gif

一句话概括本工作:本研究设计了一种简单有效的标签系统将重叠和嵌套事件抽取转换成了词对关系分类的任务,触发词、论元以及其间的关系可以并行地同时被预测出来,达到非常快的抽取速度,在3个重叠或嵌套的事件抽取数据集上的实验结果达到了SOTA。

3c6d106297433ef84f3cf16ca6e4ef9b.gif

85d00addcc347dd1de68f851b325eca7.gif

一、动机介绍

74be9a6af817c719eaacdbcbf4b16f30.gif

47d42a9fe3309c29deb3a5226473e2ee.gif

1.1 重叠和嵌套事件抽取

事件抽取(Event Extraction,EE)是自然语言处理领域的一项非常基本的任务,在社区长久以来一直得到广泛的研究。EE的目标是从文本中抽取事件触发词和相关的论元。传统的事件抽取关注于普通的事件,认为触发词和论元之间没有重叠,忽视了复杂的事件模式,即重叠事件和嵌套事件:

  • Flat Event:触发词和论元之间没有重叠;

  • Overlapped Event:多个事件的共享重叠的触发词或论元;

  • Nested Event:一个事件的论元是另外一个事件。

8c14b6558f26674191bb70b1b1ab7f8d.png

图1:普通事件(a),重叠事件(b),嵌套事件(c)

以图1为例,(b)中Investment事件和Share Transfer事件共享了”acquired”这一重叠触发词,以及”Citic Securities”,”Guangzhou Securities”是重叠的论元。(c)中Gene Expression事件是Positive Regulation的Theme论元。

1.2 重叠和嵌套事件抽取方法

截止当前,重叠和嵌套事件抽取领域的主流方法大致有三类:

  • 基于Pipleline的方法;

  • 基于多轮QA的方法;

  • 基于级联网络的方法。

这些方法都是Multi-stage的,用多个连续的阶段分别抽取事件触发词和论元。其中,基于级联网络的方法CasEE是之前的SOTA,CasEE依次预测事件类型、抽取触发词、抽取论元。这些Multi-stage的方法后面阶段的预测依赖于前面的预测结果,难以避免地带来了误差传播的问题。

本研究关注于构建一种高效的EE框架,能够在一个阶段同时解决重叠和嵌套的事件抽取。

1.3 本文的方法

传统的事件抽取使用序列标注的方法无法解决重叠和嵌套的问题,现有的工作使用指针网络分别识别触发词或论元的头尾token;我们在针对重叠和嵌套事件的共性进行深入挖掘后,发现可以通过token-pair之间的关系分类进行统一建模。触发词和论元可以通过token-head和token-tail之间联系,而论元的角色可以通过触发词和论元之间的关系建模,例如图1(b)中触发词”acquired”和论元”Guangzhou Securities”表达了object关系。

根据上述观察,本文将Overlapped and Nested EE任务转化成一种词对的关系分类任务,通过这种标签体系能够在一个阶段内抽取出事件类型、触发词、论元以及论元的角色,在此基础提出了一种新的EE框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名为OneEE。具体地,该框架的目标是将EE转变为识别出触发词和论元中所蕴含的两种类型的关系,即:

  • Span关系(S-T, S-A);

  • Role关系(R-*);

具体的词对关系分类示例如图2所示。其中S-T表示两个词是某个触发词的头部和尾部,S-A表示两个词是某个论元的头部和尾部(如”Citic”->”Securities”,Argument),R-*表示该词作为触发词的事件中,另一个词扮演了角色类型为*的论元(如“acquired”->“Citic Securities”,Subject)。

7fbf06ddc0fdd7ef3d8bb1a72e62b7ec.png

图2:关系分类示例

ec02fedb553dcb03458ad402403726da.gif

e4ace817efb30d55aeda9ae7ee4aba3a.gif

二、模型框架

65dff06160e80f79105a6cb80daca7ed.gif

aad950e1e5b305e554ef563cfab96e45.gif

图3给出了OneEE整体的框架结构。其整体可分为三层:输入编码层,自适应事件融合曾以及最后的联合解码层。其中解码层是本论文的核心。

6670409657958c38f9b65c169925994a.png

图3:模型整体结构

2.1 编码层

给定一个输入句子,将每一个词转换成多个word piece,并将他们输入预训练的BERT模块中。进过BERT计算后,使用最大池化操作将这些word piece表示重新聚合成词表示。

2.2 自适应事件融合层

由于该框架的目标是预测目标事件类型的词对之间的关系,因此生成高质量的事件感知的表示十分重要。因此,为了融合编码器提供的事件信息和上下文信息,本论文设计了一个自适应事件融合层。其中注意力模块用于建模不同事件类型之间的交互并获得全局事件信息,两个门融合模块用于将全局事件信息和目标事件类型信息与上下文化的词表示融合。

2.3 解码层

在自适应事件融合层之后,获得了事件感知的词表示,用于预测词对之间的Span关系和Role关系,对于每个词对(w_i , w_j ),计算一个分数来衡量它们对于关系 s ∈ S 和 r ∈ R 的可能性。为了使预测层对于词与词之间的相对距离敏感,论文还引入了旋转式的相对位置编码,设计了距离感知的打分函数。损失函数部分本文使用了Circle Loss的变体,将交叉熵损失扩展到多标签分类问题,并缓解了类别不均衡的问题。

在解码阶段,该模型通过将事件类型Embedding并行地插入自适应事件融合层来抽取所有事件。如图 4 所示,一旦该模型在一个阶段预测了某种事件类型的所有标签,整个解码过程可以概括为四个步骤:首先,获得触发词或论元的开始和结束索引;其次,获得触发词和论元的span;第三,根据 R-* 关系匹配触发词和论元;最后,将事件类型分配给该事件结构。

a4391b7e8b921d9603b90bba6d215007.png

图4:解码示例

7c6c5deb80366a79cd0762cd1d03ca02.gif

536f9ca57c578a4cc30d45f53bba5b3d.gif

三、实验结果

152a2cb010b91f4be298620468a69ccd.gif

6815948ee48da5c0479265c08e8e5f9c.gif

本文在3个重叠和嵌套的事件抽取数据集上(包括英文和中文)进行了实验,分别是:

  • FewFC,一个中文金融事件抽取数据集,标注了10种事件类型和18种论元,有约22%的句子包含重叠事件;

  • Genia 11和Genia 13,两个英文医学领域数据集,有约18%的句子包含嵌套事件,Genia11 标注了9种事件类型和10种论元,而Genia13的数字是13和7。

表1-2分别展示了上述任务和数据集上与基线模型对比的结果。实验结果表明,本文提出的基于词对关系分类的One-Stage方法,可以同时解决重叠和嵌套的事件抽取,并在3个数据集上的效果都优于之前的工作,并且推理速度也是最快的。

69457f732afa0f82a7bedd0cd60615c9.png

表1:FewFC, 重叠事件抽取

c17900e5a9914577b25738f7aa8c4f09.png

表2:Genia 11和Genia 13, 嵌套事件抽取

6455f526148fe0e4009169a66acdb1e1.png

图5:重叠事件与嵌套事件抽取效果对比

c6a2dde8d9da7a4db4fb6775e8964598.png

图6:触发词和论元不同距离论元角色抽取效果对比

通过进一步的消融实验,我们探索了不同参数和部件对整体框架的影响。此外我们模型在相对较小的参数情况下,其训练和推理速度超过了多个非连续实体识别模型。

bcebb516f648ed0f2a5b3a8a5a9f1721.png

表6:消融实验

378398e9bfdccc78b9d1727053b42b2a.png

表 7:模型参数与效率对比

e2da4e7f741789d5c50e2618db5d1224.gif

cf338a73a8d907985f81e3741335d825.gif

四、总结

67d98cef2ef8b21bb78f2d3f499d4a30.gif

2f21c7c98d1d783c18d4bb572fba56f3.gif

在本文中,我们提出了一种基于词-词关系识别的新型单阶段框架,以同时解决重叠和嵌套的事件抽取。词对之间的关系被预定义为触发词或论元内的词-词关系以及跨越触发词-论元对。此外,我们提出了一个有效的模型,该模型由一个用于融合目标事件表示的自适应事件融合层和一个用于联合识别各种关系的距离感知的预测层组成。实验结果表明,我们提出的模型在三个数据集上实现了新的 SoTA 结果,并且比 SoTA 模型更快。

567b7290d4019fd8213a319d9449c88c.gif


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)

NIPS'22 | 重新审视区域视觉特征在基于知识的视觉问答中的作用


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

1ebe8089f7c1bdc6ae0c268e32ea7b21.png

记得备注~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值