Liberal Event Extraction and Event Schema Induction
题目:Liberal Event Extraction and Event Schema Induction
作者:Lifu Huang1 , Taylor Cassidy2 , Xiaocheng Feng3 , Heng Ji1 , Clare R. Voss2 , Jiawei Han4 , Avirup Sil5
作者单位:
1 Rensselaer Polytechnic Institute,
2 US Army Research Lab,
3 Harbin Institute of Technology,
4 Univerisity of Illinois at Urbana-Champaign,
5 IBM T.J. Watson Research Center
发表刊物:Proceedings of the 54th Annual Meeting
发表年限:2016
引用量:57
motivation
背景:寻找在事件提取的任务中,有效提取trigger和arguments的方法
解决什么问题:对于较为复杂的语料环境中的事件无监督提取问题
为什么这么做:提升事件提取的鲁棒性,并且避免有监督方法的限制
Traditional
以前的方法:
ACE事件模式:
预先检查大量的语料库,然后手动指定事件的模式
不足:
手动定义的方法在推广新域的时候会有阻碍,具有局限性
在一词多义、词义与上下文关联的时候,无法提取出其真实蕴含的事件信息
idea
提出了一种提取时间并且从任何语料库中发现事件的模式。该模式利用符号(抽象语义表示)和分布语义来检测和表示事件结构。其效果可以与部分监督学习的模型相媲美。
核心:基于两个假设:
-
假设1:在相似的上下文中发生并且有相同意义的事件触发器往往具有相似的类型
依据这一假设,在模型中引入了WSD(Word Sense Disambiguation),并为词的多种含义学习每种不同的embaddiing
-
假设2:除了特定事件触发器的词汇语义以外,事件类型还取决于其论元(argument)和论元的作用,以及上下文中与触发器关联的其他单词
依据这一假设,该方法在trigger的上下文合并各种单词的分布来丰富每个trigger的分布。同时利用文本的语义关系:(1)确认相关上下文单词的分布如何对整体event的结构表示做出影响贡献。(2)确定相关语境词下次的分布语义被纳入事件结构的顺序。
pipeline
- 提取语义关系,应用WSD做word sense embadding,得到带有语义信息的trigger以及argument
- 确定候选的trigger以及识别argument
- 对于每一个trigger,生成compositional function 来表示该trigger的事件结构
- 将trigger、argument以及事件结构传递给聚类框架进行分类
- 对每个trigger的每个簇进行命名,并使用framenet、VerbNet等来命名每个trigger下argument的role
- 导出结果
实验
数据集:2014年8月11日的英文维基百科语料,具有perfentAMR注释 以及 ERE 实体关系事件
做了什么实验:利用模型的结果(system generated AMR)与 人工标注的和perfect AMR对比
效果怎么样:Schema Coverage、ERE生成结果等方面表现的不错
同时在生物医学的文章中,事件抽取的精度达到81%,argument标签精读达到78.4% 可移植性强
实验结果
分析:在讲该方法与一些监督方法进行比较后,虽然在指标上要弱于有监督方法,但是在ERE事件模式中,由于训练集样本较少,有监督学习的方法性能下降很快,但是本文的方法由于无监督,可以全自动提取事件并分配role,鲁棒性较强。