文章目录
1 简介
论文题目:Using Document Level Cross-Event Inference to Improve Event Extraction
论文来源:ACL 2010
论文链接:https://aclanthology.org/P10-1081.pdf
1.1 动机
- 目前,大部分事件抽取系统是基于短语或者句子级别的抽取。
- 最近一些使用高级别信息的事件抽取系统只关注单个事件抽取类型,没有关注其他事件类型的信息。
1.2 创新
- 使用跨事件的信息去增强多事件类型抽取系统的表现。
- 共同出现的事件是有用的,如Attack, Die和Injure事件经常一起出现,而Attack和Marry很少一起出现。
- 事件和论元的关系对于抽取信息也是有帮助的。
2 背景知识
任务介绍
ACE标注事件为8大类(33小类),相关术语如下:
- Entity: 一个或者多个(相关的)实体提及表示的一个或者一组对象
- Entity mention: 实体提及(通常一个名词短语)
- Timex: 事件表示,包括日期、季节、年份等
- Event mention: 一个包含事件的短语或者句子,包括触发词和论元。一个事件提及必须只有一个触发词,可以包含任意个论元。
- Event trigger: 最能清楚得表达事件发生的词,ACE的事件触发词通常是动词或者名词。
- Event mention arguments (roles): 事件提及中的实体提及和它们与事件的关系。
论元和触发词一致性
在句子级别的事件抽取中,一些事件缺少标签,导致当前的信息不能做一个清楚的决定。同时,存在简单和困难地定义事件。如果首先标注简单的事件,使用这些知识去帮助标注困难的事件,可能会得到更好的效果。在一个文档中,触发词和论元具有一致性。
- 如果一个单词的一个实例触发一个事件,那么同一单词的其他实例将触发相同的事件。(ACE数据集中94%的时候是正确的)
- 如果一个实体在单个文档中显示为同一类型的多个事件的参数,则每次都会为其分配相同的角色。(ACE数据集中97%的时候是正确的)
在一个文档中,当Die事件出现,其他事件的条件分布,如下图和下表。
在一个文档中,当Start-Org事件出现,其他事件的条件分布,如下图。
Attack事件的目标,在其他事件类型的role分布,如下图。
3 方法
论文提出的事件抽取系统分为句子级别系统和文档级别系统两部分。句子级别的系统首先根据局部信息做决策,文档级别系统根据这些局部信息完成句子级别系统不能完成的工作,以达到文档一致性。
Sentence-level Baseline System
使用 English IE 系统作为baseline,独立地抽取每个句子中的事件。这个系统联合模式匹配和统计模型,三个最大熵模型被训练:
- Argument Classifier: 分配潜在触发词的论元。
- Role Classifier: 分配论元的角色。
- Reportable-Event Classifier (Trigger Classifier): 给定触发词、事件类型和一系列论元,判断是否为正确的事件提及。
在测试阶段,每个文档被触发词实例(来自训练样本)扫描,当一个实例被发现,系统将尝试匹配触发词的环境,根据与这个触发词相关的模板集。如果匹配成功,将分配这个句子中的一些提及作为论元。Argument Classifier应用于句子中剩余的提及。 Role Classifier给论文分配角色。最后,一旦全部的论元被分配,Reportable-Event Classifier决定结果是否正确。
Document-level Confident Information Collector
作为统计模型,可以提供一个值作为一个词作为触发词(论元或者所属角色)的置信程度。通过下图可以发现,随着阀值增加,准确值增加,召回值下降。
使用触发词阀值t_threshold和角色阀值r_threshold移除低置信度的触发词和论元,建立值得相信的事件信息。使用阀值m_threshold,如果该事件最高分数与第二分数的差值大于m_threshold,将该事件类型加入到confident-event table,如果差值很小,加入conflict table。相同的策略也应用到论元和角色。conflict table不使用去预测其他事件类型或者论元,但是该表包含在最终的输出中,因为它们的局部置信度很高。
Statistical Cross-event Classifiers
为了充分利用跨事件的关系,额外训练两个最大熵分类器,文档级别的触发词和论元分类器,去推断额外的事件和论元。
Document Level Trigger Classifier
这个分类器预测一个词是否是一个事件的触发词,特征由下面部分组成:
- 词的基础形式。
- 事件类型
- 此事件类型是否存在于文档的其他部分。
Document Level Argument (Role) Classifier
这个分类器预测一个提及是否为给定事件的论元,以及它的角色。特征由下面部分组成:
- 分配论元或者角色的事件类型
- 32个其他的事件类型之一
- 该实体在文档中其他事件中的角色,如果没有,为null。
Document Level Event Tagging
在这里使用一个新的分类器,重新标注基于局部信息的标签。对于触发词、论元和角色,只标注没有在置信表中的标签。对于论元标签,只考虑与触发词在一个句子中的实体提及,因为根据ACE指引,事件的论元应该出现在触发词的相同句子中。
4 实验
实验结果如下图
5 总结
提出了文档级别的统计模型用于事件抽取,实验证明文档级别的信息可以提高基于句子级别的事件抽取系统的能力。