论文笔记 NAACL 2022|Document-Level Event Argument Extraction by Leveraging Redundant Information and Clo

125 篇文章 12 订阅

1 简介

论文题目:Document-Level Event Argument Extraction by Leveraging Redundant Information and Closed Boundary Loss
论文来源:NAACL 2022
组织机构:Nanyang Technological University
论文链接:https://aclanthology.org/2022.naacl-main.222.pdf

1.1 动机

  • 当前的文档级事件抽取忽视了文档中冗余的事件信息(一个实体存在多个表达)
  • Universum(不是论元的实体),该数据是多样的,没有相同的特征(如下图),此类数据的特征被忽视,交叉熵loss是开放的决策边界,容易进行错误的分类。
    在这里插入图片描述

1.2 创新

  • 提出带graph2token模块的实体共指图和实体摘要图,利用冗余的事件信息。
  • 提出一个封闭边界的loss。

2 方法

在这里插入图片描述
模型的整体框架如上图,主要包括4个主要的部分:

  1. context encoding module:输入为文档文本,使用Bi-LSTM进行编码,然后得到实体和句子的向量表示,公式如下(start,end表示开始位置和结束位置,memorty表示实体或者句子内部的信息,rule表示实体或者句子外部的上下文信息)。
    在这里插入图片描述
  2. Entity Coreference Graph:图包括两种结点:实体(使用其他论文工具得到)和句子,边包括两种:entity-entity(使用SpanBERT实现共指消解得到)和entity-sentence(实体属于该句子),然后使用Graph Attention Network(公式1),然后使用门控机制融合信息(公式2和3)。由于图结构不能将融合信息反馈到共指实体的上下文中,因此提出一个Graph2token模块,首先拼接原始的token表示和该token属于的实体表示,经过LSTM层(公式1,实体表示 h ′ ′ h'' h′′被传播到不属于该实体的上下文token中),得到实体表示(公示2),最终实体表示为公式3
  1. Closed Boundary Loss:看待实体作为候选的论元,使用封闭边界的loss进行分类(公式1),分类为公式2(类似二分类)
  1. Entity Summary Graph:对于相同的论元,获得多个初步的抽取结果,使用Entity Summary Graph合并多个抽取结果,首先使用RE2构造一个文本匹配模块(添加字符编码),计算两个论元的匹配分数(公式1),分数大于s的两个结点相连接(权重为匹配分数),得到多个子图(公式2),在每个子图中的使用largest sum of weights(LSW)选择一个结点作为最终预测的论元(公式3)。

3 实验

实验数据集为MUC-4(包含1700个文档,5种论元角色;每个文档平均400个token,7个段落),实验结果如下图:
在这里插入图片描述
在这里插入图片描述
消融实验:
在这里插入图片描述
Case Study:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值