1 简介
论文题目:Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms
论文来源:ACL 2017
论文链接:https://aclanthology.org/P17-1164.pdf
1.1 动机
- 论元可以提供重要的信息来识别和分类事件。
- 联合事件抽取模型仅高效地提高了论元抽取的性能,对事件检测任务是不高效,原因如下。
- 联合模型同时解决事件检测和论元抽取任务,通常结合两个任务的loss进行训练,然而训练集中注解的论元数目多于触发词数目,数据不平衡导致联合模型更加偏爱论元抽取任务。
- 联合模型通常预先预测一些候补触发词和论元,然后选择正确的触发词和论元。当预先预测候补触发词时,目前几乎全部的方法没有利用论元的信息。相反,在预先预测候补论元时通常利用了触发词的信息。
1.2 创新
- 在事件检测任务中使用论元信息。
- 提出一种监督注意力机制模型。
2 方法
整个模型框架如下,包括上下文表示学习和事件检测两个部分。
2.1 上下文表示学习
根据上面模型图,该阶段生成事件检测阶段的输入,分别为cw、ce、w(当前词)。
首先
首先将每个单词转换为一次隐藏表示,公式如下:
然后分别计算上下文注意力向量和上下文实体注意力向量,公式分别如下:
注意,没有使用当前候选token的实体类型去计算实体注意力向量,因为只有少部分事件触发词是实体。(在ACE 2005数据集中仅10%触发词是实体)。
然后结合上面两个注意力向量,为最后的注意力向量。α=αw+αe,根据该向量生成cw和ce,公式如下。
其中Cw为当前词的上下文单词(不包括当前词)[w-n/2,w-n/2+1,…,w-1,w1,…,wn/2-1,wn/2],Ce为周围实体类型[e-n/2,e-n/2+1,…,e-1,e1,…,en/2-1,en/2]。
2.2 事件检测
在该阶段,模型分为三层,输入层、隐藏层、softmax输出层,使用softmax计算条件概率,公式如下:
损失函数如下:
由于希望论元得到更多的关注超过其他单词,使用监督的方法训练注意力向量,共有两种方法构建真实注意力向量。
- 只关注论元单词(如下图所示)
- 关注论元和它周围的词.
首先使用1方式生成a向量,然后使用高斯分布塑造论元周围词的注意力分布,算法如下:(w为注意力机制的窗口)
最后标准版a’得到最终注意力向量a*,训练注意力向量的损失函数:
与事件检测的损失函数结合,最终的损失函数如下:
3 实验
实验使用ACE 2005数据集,首先验证论元信息对事件检测是重要的,结果如下图,
- ANN中λ为0,不使用额外的信息,使用无监督的方式计算注意力向量.
- ANN-ENT中λ为0,使用上下文中的实体平均计算注意力向量.
- ANN-Gold1以第一种方式使用真实注意力向量
- ANN-Gold2以第二种方式使用真实注意力向量
在ACE 2005数据集上的实验结果如下图:
使用FrameNet为额外的训练数据,增强模型的性能,结果如下图(FrameNet有更多的元素超过事件,因此仅使用6个核心元素)
4 总结
- 提出了一种监督的注意力机制进行事件检测任务,使用论元的信息增强模型的效果.
- 提出了两种策略,使用标注的论云信息构建真实的注意力向量.