论文笔记 NAACL 2022|Document-Level Event Argument Extraction by Leveraging Redundant Information and Clo

hlee-top

已于 2023-07-11 16:23:28 修改

阅读量157

点赞数

分类专栏： NLP 论文文章标签：事件论元抽取

于 2022-11-14 21:44:18 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/127842667

版权

事件抽取冗余信息实体共指图封闭边界损失文档级抽取

关键词由CSDN通过智能技术生成

NLP 同时被 2 个专栏收录

125 篇文章 16 订阅

订阅专栏

论文

125 篇文章 12 订阅

订阅专栏

文章目录

1 简介

论文题目：Document-Level Event Argument Extraction by Leveraging Redundant Information and Closed Boundary Loss
论文来源：NAACL 2022
组织机构：Nanyang Technological University
论文链接：https://aclanthology.org/2022.naacl-main.222.pdf

1.1 动机

当前的文档级事件抽取忽视了文档中冗余的事件信息(一个实体存在多个表达)
Universum(不是论元的实体),该数据是多样的，没有相同的特征(如下图)，此类数据的特征被忽视，交叉熵loss是开放的决策边界，容易进行错误的分类。

1.2 创新

提出带graph2token模块的实体共指图和实体摘要图，利用冗余的事件信息。
提出一个封闭边界的loss。

2 方法

在这里插入图片描述
模型的整体框架如上图，主要包括4个主要的部分：

context encoding module：输入为文档文本，使用Bi-LSTM进行编码，然后得到实体和句子的向量表示，公式如下(start,end表示开始位置和结束位置，memorty表示实体或者句子内部的信息，rule表示实体或者句子外部的上下文信息)。
Entity Coreference Graph：图包括两种结点：实体(使用其他论文工具得到)和句子，边包括两种：entity-entity(使用SpanBERT实现共指消解得到)和entity-sentence(实体属于该句子)，然后使用Graph Attention Network(公式1)，然后使用门控机制融合信息(公式2和3)。由于图结构不能将融合信息反馈到共指实体的上下文中，因此提出一个Graph2token模块，首先拼接原始的token表示和该token属于的实体表示，经过LSTM层(公式1，实体表示 $h^{''}$ 被传播到不属于该实体的上下文token中)，得到实体表示(公示2)，最终实体表示为公式3

Closed Boundary Loss：看待实体作为候选的论元，使用封闭边界的loss进行分类(公式1)，分类为公式2(类似二分类)

Entity Summary Graph：对于相同的论元，获得多个初步的抽取结果，使用Entity Summary Graph合并多个抽取结果，首先使用RE2构造一个文本匹配模块(添加字符编码)，计算两个论元的匹配分数(公式1)，分数大于s的两个结点相连接(权重为匹配分数)，得到多个子图(公式2)，在每个子图中的使用largest sum of weights(LSW)选择一个结点作为最终预测的论元(公式3)。