论文笔记 NAACL 2021|Document-level Event Extraction with Efficient End-to-end Learning of Cross-event De

hlee-top

已于 2022-05-08 16:13:26 修改

阅读量954

点赞数 1

分类专栏： NLP 论文文章标签：深度学习自然语言处理事件抽取

于 2022-01-16 23:18:37 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/122525395

版权

NLP 同时被 2 个专栏收录

125 篇文章 15 订阅

订阅专栏

论文

125 篇文章 12 订阅

订阅专栏

文章目录

1 简介

论文题目：Document-level Event Extraction with Efficient End-to-end Learning of Cross-event Dependencies
论文来源：NAACL 2021
论文链接：https://aclanthology.org/2021.nuse-1.4.pdf

1.1 动机

先前的工作没有结合事件提及抽取，来学习实体和事件共指。
在文档级别上，对跨事件依赖项进行建模时，效率是一个挑战。

1.2 创新

提出了一个文档级别的事件抽取模型，使用Deep Value Networks(DVN)捕捉跨事件依赖，同时进行事件提及抽取、事件共指和实体共指。
为了恰当地在文件级别上评测事件抽取，提出两种评测指标DOCTRIGGER和DOCARGUMENT DOCTRIGGER考虑触发词span、事件类型和事件共指，将相同的事件共指聚集到一起，然后计算匹配分数，使用Kuhn-Munkres algorithm(匈牙利算法)约束一个真实触发词cluster对于一个预测触发词cluster。DOCARGUMENT考虑论元span，论元角色和实体共指。

2 背景知识

对于事件提及抽取，本篇论文的不同之处是需要提取所有名称、名词和代词论元的完整span，而先前的工作专注于抽取名称论元的head span。
事件共指(Event Coreference)是识别相互关联的事件提及。与实体共指类似，为每个预测的触发词 $d_i$ 预测最可能的祖先触发器 $d_j$ 。

3 方法

主要包括两部分，使用base model独立地预测每个子任务，然后将DVN合并到base model中以高效地捕捉跨事件依赖关系。

3.1 基础模型

基础模型使用DYGIE++，主要包括下面模块：

Encoding：使用BERT-BASE进行编码
Span Enumeration：为了解决重叠实体，枚举全部的k-gram作为候选事件提及和实体提及，对于每个span $s_i$ 表示为head token $e_h$ 、tail token $e_t$ 和距离编码，表示为 $x_i=[e_h,e_t,c_{h,t}]$
Classification：对于触发词抽取对应每个token，公式为 $y_i^{trig}=FFN^{trig}(e_i)$ ；实体抽取对应每个span，公式为 $y_i^{ent}=FFN^{ent}(x_i)$ ；论元抽取、事件提及和实体提及，对每对候选span进行评分,公式为 $y_k^{t}=FFN^{t}([x_i,x_j])$

触发词抽取和论元抽取的loss为交叉熵；实体共指和事件共指的loss为优化候选span的所有正确共指span的marginal log-likelihood。公式分别如下：

3.2 跨事件依赖

由于在计算效率方面的优势，将DVN加入到base model中捕捉跨事件的依赖。
DVN是一个结构预测框架，使用 $v(x,y,\theta)$ 评估预测y和输入x的一致性。 $v(x,y,\theta)$ 的目标是估计一个oracle value function $v^*(y,y^*)$ 衡量输出y和真实结果 $y *$ 相比的特性。 $s.t.\forall y \in \mathcal{Y},v(x,y,\theta) \approx v^*(y,y^*)$ 。推理时的公式为 $\widehat{a}=argmax_yv(x,y)$ 。
局部触发词分类预测每个token独立的。DVN将局部触发词分类 $y^{trig}$ 和全部token e的编码作为输入，结构的输出 $\widehat{y}^{trig}$ 应该纠正局部触发词分类的错误。 $\widehat{y}^{trig}$ 通过h次迭代更新获得，每个token i的事件类型通过 $argmax(\widehat{y}^{trig})$ 得到，公式如下：在这里插入图片描述
评测标准使用oracle value function $v^*(y^{trig},y^{trig*})$ ，为了适应连续的输出，松弛每个token的输出标签从[0,1]到(1,0)，用于计算 F1 分数的并集和交集操作分别替换为元素最小和最大操作,loss公式如下：

最终的loss为
在这里插入图片描述
添加噪声防止过拟合，分别有随机噪声、交换噪声和交换低置信度噪声，如下图：