论文笔记 | 利用Argument信息以及Attention机制提升事件检测的效果

最新推荐文章于 2022-08-04 17:39:18 发布

ZoelBro

最新推荐文章于 2022-08-04 17:39:18 发布

阅读量1.3k

点赞数

分类专栏： NOTE 文章标签：事件检测 Attention

本文链接：https://blog.csdn.net/JYZ4MFC/article/details/81180036

版权

本文探讨如何利用Argument信息改善事件检测效果，通过引入Supervised Attention机制，结合Context Representation Learning，提升模型对触发词Trigger和事件元素Argument的理解。实验表明，这种方法能有效提高事件检测的准确性。

摘要由CSDN通过智能技术生成

原论文：Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanism

原论文的著作权属于中科院自动化所，本文只针对原论文进行了学习及记录。

1. 前言

众所周知，在ACE 2005的语料库中，每一个事件都由事件触发词Trigger和事件元素Argument组成，在目前的研究中，针对事件检测任务，各个研究小组都没有充分的利用数据集，他们更多地依赖句子的语义信息直接进行事件检测，而几乎没有使用到已经被标注好的Argument信息。

本文中，研究人员提出，Argument信息能够对Trigger的识别和分类起到积极作用，并通过实验验证了他们的想法。

举个例子：Mohamad fired Anwar, his former protege, in 1998

上面的例子中，fired是一个触发词，但是这个触发词可能代表两个事件类型，一个是Attack, 另一个是 End-Position, 那么到底应该将这个事件归为哪一个类呢？如果我们看到 former protege(Role = Position) 这个argument，我们就能知道这多半是一个 End-position 事件。

2. 模型

整体上来说，该模型是一个多分类模型，将句子中的每一个token(之后会详细叙述此概念)当作是Trigger Candidate，最后输出对于每个Candidate 的分类情况(33个事件类型再加上一个NA Type)。

那么，一个句子中的Token是什么呢，或者说Trigger Candidate 具体是什么样子的呢?我们将每一个单词与其上下文单词信息、上下文实体信息一起结合，组成针对这个单词的Trigger Candidate。下图展示了本文模型的整体结构，这个模型分成两个部分：(1) Context Representation Learning (CRL)，是在Trigger Candidate向量化表示的基础上，利用有监督的注意力机制进一步提取其中的有效信息；(2) Event Detector，是包含一个输入层，一个隐含层和一个Softmax层的神经网络。

图1 模型结构

2.1 Context Representation Learning

为了准备CRL，我们对每一个单词的上下文的长度进行了限制，取该单词的前后各 $\frac{n}{2}$ 个单词，形成一个长度为 $n$ 的上下文信息。之前提到过，上下文信息包括两部分，上下文单词信息以及上下文实体信息，那么设当前的单词为 $w_0$ ，它的上下文单词信息为 $\mathbf{C_w} = [w_{-\frac{n}{2}}, w_{-\frac{n}{2}+1},\dots, w_{-1}, w_1, w_{\frac{n}{2} -1}, w_{\frac{n}{2} }]$ ,上下文实体信息即为与上下文单词相对应的实体类别(包括NA Type)，表示为 $\mathbf{C_e} = [e_{-\frac{n}{2}}, e_{-\frac{n}{2}+1},\dots, e_{-1}, e_1, e_{\frac{n}{2} -1}, e_{\frac{n}{2} }]$ 。在之后的叙述之中，为了方便表示，我们将当前单词称为 $w$ ，将 $C_{w}$