论文笔记 NAACL 2019|Event Detection without Triggers

hlee-top

已于 2022-03-30 23:54:23 修改

阅读量309

点赞数 1

分类专栏： NLP 论文文章标签： nlp 深度学习事件检测

于 2021-09-11 16:56:06 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/120240076

版权

NLP 同时被 2 个专栏收录

125 篇文章 14 订阅

订阅专栏

论文

125 篇文章 12 订阅

订阅专栏

本文介绍了一种新的事件检测模型，名为Type-aware Bias Neural Network with Attention Mechanisms (TBNNAM)，该模型在不依赖事件触发词的情况下进行事件检测。研究发现，通过多类别二分类和注意力机制，即使没有触发词，也能有效识别和分类事件。实验结果显示，该模型在ACE2005数据集上表现出色，证实了无触发词事件检测的可行性。

摘要由CSDN通过智能技术生成

文章目录

1 简介

论文题目：Event Detection without Triggers
论文来源：NAACL 2019
论文链接：https://aclanthology.org/N19-1080.pdf
代码链接：https://github.com/liushulinle/event_detection_without_triggers

1.1 动机

事件触发词对于事件检测任务不是必需的，事件检测任务的目标是识别和分类事件，因此触发词可以被视为这个任务的中间结果。
标注触发词是耗时的，同时限制了目前事件抽取方法的应用。
没有事件触发词，将遇到两个问题：多标签问题和触发词缺少问题

1.2 创新

首次不使用触发词解决事件检测任务
提出一个新的模型Type-aware Bias Neural Network with Attention Mechanisms

2 方法

为了解决多标签问题，将该任务当作多个二分类问题。给定一个句子，它和每一个候补事件类型进行二分类，添加NA标签表示句子中不包含任何事件。为了捕捉隐藏的触发词信息，提出了一个简单但是高效的模型，称为Type-aware Bias Neural Network with Attention Mechanisms(TBNNAM).这个模型是类型感知的，因为它计算一个句子的表示基于目标事件类型。下面展示了TBNNAM的框架，它的输入包含两个部分：带命名实体识别标签的句子token和一个目标事件类型，如果给定的句子表达目标类型的事件则输出o为1，否则为0.
在这里插入图片描述

2.1 输入

给定一个句子，使用Stanford CoreNLP工具转变文本为token,ACE 2005语料库中不仅标注了给定句子中的事件，而且标注了实体。跟随先前的工作，利用标注的实体标签在模型中。

2.2 单词和实体编码

在NYT语料库中，使用Skip-gram模型学习单词编码，随机初始化每个实体标签的编码表，单词编码的维度为 $d_w$ ,实体编码的维度为 $d_e$ .

2.3 事件类型编码

根据上面结构图，一个事件类型被转换为两个编码向量 $t_1$ 和 $t_2$ , $t_1$ 用来捕捉局部信息， $t_2$ 用来捕捉全局信息，它们两个被随机初始化，事件类型编码的维度为 $d_evt$ .

2.4 LSTM层

LSTM运行在单词和实体编码的拼接序列中。LSTM有三个门控单元(输入i，遗忘f，输出o)和cell记忆向量c

2.5 注意力层

每个事件类型被一系列特殊单词触发，它们被称为事件触发词。因此事件触发词是事件检测中的重要线索。然而，这些信息在任务中是隐藏的。为了建模这些隐藏的触发词，引入注意力机制。注意力向量 $a$ 基于目标事件类型编码 $t_1$ 和LSTM的隐藏状态 $h$ 。具体地，在给定的句子中，第k个token的注意力分数计算公式如下：
在这里插入图片描述
目标事件类型的触发词是被期望获得更高的分数超过其他词。最后，句子的表示 $s_{att}$ 计算公式如下，其中 $a=[a_1,...,a_n]$ 是注意力向量， $H=[h_1,h_2,...,h_n$ ，其中 $h_k$ 是LSTM层的第k个token的输出。

2.6 输出层

最终的输出o包括两个部分: $v_{att}$ 和 $v_{global}$ , $v_{att}$ 是被计算于 $s_{att}$ 和 $t_1$ 的点乘，用来捕捉局部特征(具体地，特征关于隐藏的触发词)。LSTM层的最后输出 $h_n$ 编码整个句子的全局信息，因此 $v_{global}=h_n·t_2^T$ 是被期望捕捉句子的全局信息。最终输出o的计算公式如下：
在这里插入图片描述

2.7 偏置loss函数

定义一个偏置loss函数加强正样本的印象，理由有两个：

正样本远少于负样本，训练样本是一个<句子，数据类型>二元组，它的标签是1或者0根据给定的句子是否表达事件类型t.
正样本比负样本提供更多的信息，一个正样本<s,t>意味着s表达事件类型t.

loss函数定义如下，其中T为训练样本，x是句子和目标事件类型二元组， $y{\in}\{0,1\}$ 。 $(1+y^{(i)}·{\beta})$ 是偏置，它的值对于负样本为1，正样本为 $1+\beta$ ,其中 ${\beta}{\geq}0$ .
在这里插入图片描述

3 实验

实验数据库为ACE 2005,使用Stanford CoreNLP工具对文档进行分句，根据ACE 2005样本库的原始标注为每个句子设置一系列标签，如下：
在这里插入图片描述

3.1 多类别分类和二分类对比实验

3.1.1 二分类

下图表示该方法的框架，以一个句子和一个目标事件类型作为输入，这些模型的loss与上节提出模型的loss一样。关键部分为句子的编码，根据编码句子的编码策略，实现下面三种模型：

BC-CNN：使用CNN编码句子
$BC-LSTM_{last}$ ：使用LSTM编码，以最后一个token的隐藏状态作为句子的表示
$BC-LSTM_{avg}$ ：使用LSTM编码，以全部token的隐藏状态的平均值作为句子的表示

3.1.2 多类别分类

全部存在的方法将事件检测任务当作多类别分类。给定一个句子，这些方法预测每个token是否是一个事件触发词和它触发什么类型的事件。这些方法的框架如下图，损失函数为 $J(\theta)=-\frac{1}{T}\sum_{i=1}^Tlog(p(y^{(i)}|x^{(i)},\theta))$ ,其中T为训练样本的数量，根据编码句子的编码策略，实现下面三种模型：

MC-CNN：使用CNN编码句子
$MC-LSTM_{last}$ ：使用LSTM编码，以最后一个token的隐藏状态作为句子的表示
$MC-LSTM_{avg}$ ：使用LSTM编码，以全部token的隐藏状态的平均值作为句子的表示

对比实验结果如下图，可以发现二分类的方法显著地超过多类别分类的方法，因为多类别分类预测每个句子最后一个事件；CNN的方法优于LSTM的方法，因为触发词是事件检测任务中的重要线索，CNN擅长提出局部的特征。

3.2 实验结果

实验结果如下图，其中 $BC-LSTM_{att}$ 中的 ${\lambda}$ 为1.0,以展示注意力机制的作用
在这里插入图片描述

3.3 注意力向量分析

下图展示模型学到的注意力向量：
在这里插入图片描述

3.4 loss中偏置的影响

偏置的对比实验结果如下图，实验结果表明带偏置的系统显著地超过不带偏置的系统，表明正样本要得到更多的关注。
在这里插入图片描述

4 总结

提出了一个事件检测模型，不使用触发词完成事件检测任务，解决触发词缺失问题。
使用多个二分类解决多标签问题

hlee-top

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文笔记 NAACL 2019|Event Detection without Triggers

文章目录1 简介1.1 动机1.2 创新2 方法2.1 输入2.2 单词和实体编码2.3 事件类型编码2.4 LSTM层2.5 注意力层2.6 输出层2.7 偏置loss函数3 实验4 总结1 简介论文题目：Event Detection without Triggers论文来源：NAACL 2019论文链接：https://aclanthology.org/N19-1080.pdf代码链接：https://github.com/liushulinle/event_detection_withou
复制链接

扫一扫