一.简介
本文使用的方法是基于机器学习的事件抽取方法,基于机器学习的方法该类方法克服了基于模板方法的缺陷,较为客观,也不需要太多的人工干预和领域知识。根据抽取模型所采用的不同的数据驱动源,现有的方法主要可分为三类:
1.基于事件元素驱动
Chieu 等首次在事件抽取中引入最大熵分类器,用于事件元素的识别 。该方法实现了两个领域中的抽取任务,分别是半结构化的讲座通告和自由文本的人事管理。该方法突破了早期识别一个句子中多个模板信息只能用模式匹配的方法的局限,实现了利用机器学习理论中分类器的思想来识别描述一个事件的各元素及其关系。但是该方法存在着缺陷:将所有的词引入构建判断事件各元素的分类器时,因为文本中存在着很多非事件元素的词,所以构建分类器时将引入太多的反例,导致正反例严重的不平衡。
2.基于事件触发词驱动
Ahn结合 MegaM 和 Timbl 两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在 ACE(Automatic content extraction)语料上均取得了不错的效果。在 Ahn 的方法中,最重要的一个步骤就是判断句子中的每个词是