Language specific issue and feature exploration in Chinese event extraction

【文章来源】

Chen Z, Ji H. Language specific issue and feature exploration in Chinese event extraction[C]// Human Language Technologies: the 2009 Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009:209-212.

【原文链接】

汉语事件提取中的语言专题与特色探索:

http://www.cs.brandeis.edu/~marc/misc/proceedings/naacl-hlt-2009/NAACLHLT09-Short/pdf/NAACLHLT09-Short053.pdf

摘要

本文提出了一种中文事件提取系统。指出了汉语触发标记语言中的一个具体问题,并致力于探讨触发标记和参数标记中应用的词汇、句法和语义特征的贡献。结果,我们取得了有竞争性的性能,特别是触发标记中的F值为59.9,参数标记中的F值为43.8。

简介

在本文中,我们讨论了自动内容提取(ACE)程序中定义的事件提取任务。 ACE程序为事件提取任务定义以下术语:

  • 触发器:最清楚地表达事件发生的词;
  • 参数:在事件实例中扮演一定角色的实体、时态表达式或值;
  • 事件提示:一个带有明显触发和参与者参数的短语或句子。

研究人员已经报道了一些基于监督学习的英语事件提取系统(Ahn,2006; Ji和Grishman,2008)。本文开发了一个模块化的中文事件提取系统,我们很好地处理了触发器标记中的语言特定问题,探索了在触发器标记和参数标记中应用的有效的词汇、句法和语义特征。Tan等人(2008)解决了我们在本文中所做的相同任务。然而,据我们所知,早期研究人员尚未报道中文事件提取的语言特定问题和特征贡献。

本文的其余部分组织如下。第2节指出了中文触发器标签中的语言特殊性问题,并讨论了触发器标签的两种策略:基于单词和基于字符。第3节介绍了参数标注。第4节讨论了实验结果。第5节总结了论文。

2 触发标签

我们将触发器标签分为两个步骤:1)触发器识别:识别事件触发器2)触发器分类:为触发器分配事件类型。我们将在触发器标签中讨论的两种策略(基于单词和基于字符)仅在第一步中有所不同。

2.1 语言特定问题

中文和其他一些语言,例如日本语,在单词之间没有分隔符。因此,分词通常是进一步处理的必不可少的步骤,例如,词性标注,解析等。然而,分词可能在某些任务中引起问题,例如,名称实体识别(Jing 等,2003)和事件触发器识别。对于一个具体的例子,“击毙”(shoot and kill)被分割为中文单词。但是,单词中有两个触发器,一个是“击”(shoot),事件类型为Attack,另一个是“毙”(kill),事件类型为Die。触发器还可以跨越两个或更多个单词,例如,触发器是“公开信”(public letter),其跨越两个单词,“公开”(public)和“信”(letter)。

在ACE中文语料库中,2902触发器恰好一对一匹配其对应的单词,同时,431个触发器与单词(无论是词内还是词间)不一致。不一致率高达13%。

接下来,我们讨论了触发标记的两种策略,一种是基于单词的,使用全局勘误表来缓解不一致性问题,另一种是基于字符的,解决了不一致性问题。

2.2 基于字的触发标签

我们将使用基于最大熵的分类器进行触发器识别和触发器分类。这两个分类器共享相同的功能集:

  • 词法特征:单词、词性(POS)、前一个单词+单词、词+下一个单词、前一个词性+词性、词性+下一个词性。
  • 句法特征:1)深度:解析树中触发器的深度;2)根路径:从触发器的叶节点到解析树中的根的路径;3)子分类:短语结构扩展的父亲触发;4)短语类型:触发器的短语类型。
  • 语义词典:1)谓词存在:一个布尔值,表示从中文Propbank产生的谓词列表中存在触发器(Xue和Palmer,2008)2)同义词条目:中文同义词词典中触发器的条目号
  • 最接近的实体信息:1)解析树中与触发器在语法上最接近的实体的实体类型;2)句子中与触发器在物理上最接近的实体的实体类型

为了处理触发器识别中的特定语言的问题,我们构建了一个全局勘误表来记录训练集中存在的不一致性。在测试过程中,如果扫描的单词在勘误表中有一个条目,我们在条目中选择可能的触发器作为候选触发器。

2.3 基于字符的触发标记

虽然误差表有助于减少分割不一致性,但它并不是一个完美的解决方案,因为它只识别了训练数据中存在的不一致性。

为了更进一步,我们构建一个单独的基于字符的触发器识别分类器进行比较。我们使用MEMM(最大熵马尔可夫模型)来标记每个字符,标签指示它是否在触发器外(O),或者是触发器的开始(B),或者是触发器的一部分(开头除外)(I)。我们的MEMM分类器通过为每个字符分配三个标记中的一个来执行顺序分类。然后,我们应用Viterbi算法来解码标签序列,并识别序列中的触发器。

MEMM分类器中使用的功能包括:字符,前一个字符,下一个字符,前一个标记以及字符所承载的基于字的特性。我们为触发器分类应用了与基于单词的触发器标记相同的特性集。

参数标签

我们将参数标记分为两个步骤:1)参数识别:识别实体或时间表达式或将值做为参数;2)角色分类:为参数分配角色。我们为这两个步骤应用基于最大熵的分类器,它们共享同一组特征集:

  • 基本特征:触发事件,事件提及的事件子类型,ACE实体提及的类型,实体提及的头字,事件子类型和头字的组合值,事件子类型和实体子类型的组合值;
  • 邻居字:1)实体的左邻居字,时间(时态)表达式或;2)实体的右邻居字,时间表达式或值;
  • 句法特征:1)子分类(sub-categorization):扩展触发器父级的短语结构;2)位置:实体相对于触发器的相对位置(之前或之后);3)路径:从实体到触发器的最小路径;4)距离:从实体到解析树中的触发器的最短长度。

实验结果

4.1 数据和评分指标

我们使用2005 ACE训练语料库进行实验。语料库包含633个中文文档。在本文中,我们遵循ACE诊断任务的设置,并使用基础事实实体,时间和值进行训练和测试。我们随机选择了558个文档作为训练集,66个文档作为测试集。对于训练集,我们保留了33个文档作为开发集。

我们定义以下标准以确定事件提及的正确性:

  • 如果触发器的事件类型和偏移量与参考触发器完全匹配,则会正确标记触发器。
  • 如果参数的事件类型,偏移量和角色与引用参数提及匹配,则会正确标记该参数。

4.2整体系统性能

表1显示了我们的基线系统的总体精度(P),召回率(R)和F-测量(F)分数(基于单词的系统,在触发标记中仅有词汇特征,在参数标记中仅有基本特征),基于单词的系统具有完整的集成功能和基于字符的系统,具有完整的集成功能。与(Tan 等,2008)报道的中国事件提取系统相比,我们的得分要低得多。但是,我们认为我们应用了更为严格的评估指标。

表1 整体系统性能(%)

4.3基于字和基于字符的触发标记之间的比较

表1列出了基于字符和基于单词的触发器标签之间的比较结果。这表明基于字符的方法优于基于单词的方法,主要是由于触发器识别步骤中的性能更好(F-Measure提高3.3%),精度高达82.4%(改进14.3%),召回略有损失(2.1%)。

4.4 触发标记的特征贡献

表2显示了基于字的触发器标记的特征贡献,并且我们观察到基于字符的类似特征贡献,因为它仅与基于字的触发器识别不同,并且在触发器分类中的工作方式类似。(我们在这里省略了结果)。表2显示,维护勘误表是一种有效的基于单词的触发器识别策略,字典资源可以提高性能。

表2 基于单词的触发器标记的特性贡献(%)

值得注意的是,在集成语法特征时性能会下降。我们的解释可能是,与语义角色标记任务中的谓词不同,触发器不仅可以是动词,还可以是名词或其他类型。因此,在语义角色标记方面,解析树中触发器的句法位置比谓词灵活得多。出于这个原因,句法特征在触发标记中没有那么具有辨别力。此外,句法特征不能区分候选触发器的词义。在以下示例中,

S1:运动员正在进入球场准备即将到来的球赛

The players are entering the stadium to prepare for the coming game.

S2:很多农产品还没有进入市场就腐烂。

Many farm products have been rotted before entering the market.

单词“进入”(entering)表示句子1中的“Transport”事件但在句子2不是。两个句子中“进入”一词周围的短语结构完全相同(VPVP-NP)。但是,如果“PERSON”的实体出现在“进入”前面,“进入”这个词更可能是一个触发器。因此,附近实体信息的特征是有效的。

4.5 参数标注的特征贡献

表3显示了基于字的触发器标记后参数标记的特征贡献,并且我们还观察了基于字符的触发器标记后的参数标记的相同特征贡献(结果被省略)。它表明两个相邻的单词特征是相当有效的。我们注意到,在一些事件描述模式中,左边的单词可以提供信息,告诉后面的实体提及是一个参数。例如,“被[实体]打死”(由[实体]杀死)是描述攻击事件的常见模式,实体“被”(by)的左邻居词可以强烈暗示该实体是具有“攻击者”角色的论点。同时,正确的词可以帮助减少虚假的争论。例如,在中文“的”(of)结构中,单词“的”(of)强烈暗示“的”左侧的实体不是参数。

表3 基于单词的触发器标记后的参数标记的特性贡献(%)

 

子分类功能贡献很少,因为它是解析树中所有参数共享的功能。表3还显示路径和距离是两个有效的特征。很明显,在解析树中,附加到触发器的每个参数都处于某种语法配置中。例如,路径“NP VP VV↑↓”意味着它可能是主体-动词结构,因此NP中的实体很可能是触发器的参数(VV)。位置特征有助于区分语法相同结构中的参数角色,例如“主题动词对象”结构。

5 结论和未来的工作

本文对汉语事件提取中的语言具体问题进行了深入研究,探讨了汉语事件提取任务的有效特征。我们的工作为建立一个高性能的中文事件提取系统做出了贡献。

在未来的工作中,我们打算探索一种进行跨语言事件提取的方法,并研究跨语言推断在并行运行两个语言事件提取系统时是否可以从任意一边引导。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值