自动识别事件类别的中文事件抽取技术研究

一.简介

    本文使用的方法是基于机器学习的事件抽取方法,基于机器学习的方法该类方法克服了基于模板方法的缺陷,较为客观,也不需要太多的人工干预和领域知识。根据抽取模型所采用的不同的数据驱动源,现有的方法主要可分为三类:

1.基于事件元素驱动

    Chieu 等首次在事件抽取中引入最大熵分类器,用于事件元素的识别 。该方法实现了两个领域中的抽取任务,分别是半结构化的讲座通告和自由文本的人事管理。该方法突破了早期识别一个句子中多个模板信息只能用模式匹配的方法的局限,实现了利用机器学习理论中分类器的思想来识别描述一个事件的各元素及其关系。但是该方法存在着缺陷:将所有的词引入构建判断事件各元素的分类器时,因为文本中存在着很多非事件元素的词,所以构建分类器时将引入太多的反例,导致正反例严重的不平衡。

2.基于事件触发词驱动

    Ahn结合 MegaM 和 Timbl 两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在 ACE(Automatic content extraction)语料上均取得了不错的效果。在 Ahn 的方法中,最重要的一个步骤就是判断句子中的每个词是否是最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多类分类器对其进行分类,获得其所属的事件类别,从而得出其所含的事件元素类型,用于构建识别每一类事件元素的分类器。 Grishman、 Hardy、于江德等及赵妍妍等所提出的方法也是这类基于事件触发词驱动的模型的范畴。在这类方法中,将每个词作为一个实例来训练并判断是否为触发词的机器学习模型,引入了大量的反例,导致正反例严重不平衡;并且,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一定的数据稀疏问题。

3.基于事件实例驱动

    Naughton所提出的模型从描述事件的句子出发,将每一个句子看成候选事件的实例,将事件抽取任务转化成对句子的聚类问题。 这个方法显著区别于上述两类方法, 从不同的角度来解决事件抽取任务,然而算法中只是对句子所描述的事件实例进行划分,并没有进一步解决事件实例的具体类别名称,以及识别出促使某事件发生的触发词及参与该事件的各元素,而识别出这些信息对真正将事件抽取技术能否应用于实际起着决定性的作用。

    综上所述。目前最常用的事件抽取系统都是基于事件元素驱动或事件触发词驱动的研究,这类方法最大的问题是要把文本中所有词进行判别用来确定是否和事件相关的元素或者事件触发词,然后根据触发词信息判别事件类型。但是这个过程中非事件元素和非触发词太多,引入太多范例,造成正反例子严重不平衡。目前没有高效的算法对其进行过滤,而且基于事件实例抽取的技术在国内处于起步阶段,有很广阔的研究空间。

    本文将构建一种新的基于事件实例驱动的抽取模型,我们将充分挖掘能够区分事件和非事件的有代表性特征,通过二元分类的方法过滤掉非事件的句子,然后采用多知识融合的手段表示候选事件实例。利用支持向量机采用多元分类的方法自动识别候选事件实例所属的事件类别,实现自动文本事件抽取目标。

二.算法细节

 

                                                                          图2.1 事件类别识别的框架

2.1 过滤非事件的句子

为了消除文本中大量的非事件的句子,我们采取二元分类的方法,将文本中的句子分为两个大类:含有事件句子的实例集合和含有非事件句子的实例集合。由于将过滤非事件的句子看作分类问题,特征的选取和发现尤为关键,这将涉及到究竟什么样的特征能够有代表性的区分开事件和非事件的句子。我们主要选取了以下几个特征:句子的长度、段落位置、词语的个数、实体的个数、 timex 值的个数、 value的个数、停用词的频率、以及相应的词语等。

  • 句子长度:句子长度>50,事件句的可能性更高
  • 实体的个数:句子中实体个数>3的句子是事件句
  • 停用词的频率:停用词频率高于0.5是事件的可能性高
  • 段落位置:句首和句尾是事件句的可能性比较高
  • 句子中词语的个数:词语大于20个词为事件句的可能性高
  • time个数:句子中描述时间参数的个数。由于 time 在句子中的个数比较少,而且倘若存在的话,事件的概率也比较大,所以我们选择 1 作为标准。 
  • value个数:句子中描述数值参数的个数。同样的 value 的在句子中的个数也不多,而且倘若存在的话,是事件句子的概率也比较大,所以我们选择 1 作为标准。 

2.2 事件类别的识别

在上一阶段中我们已经过滤了非事件的句子,接下来我们将在得到的事件实例的集合中进行事件类别的识别,为每一个候选事件实例赋予一个相应的事件类别标签。为此,我们必须完成两个步骤的任务,即
(1) 对候选事件实例进行知识表示;
(2) 构建分类器进行分类,预测候选事件所属的事件类别; 

候选事件实例的类别识别问题可以被看做是一个分类问题,为此当前的任务就是选择一个合适的分类器。在此我们选择的是支持向量机(Support vector machine, SVM)分类器,其优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在召回率和准确率方面都优于 KNN 及朴素贝叶斯方法。 SVM 由 Vapnik 等于 1995 年提出,具有相对优良的性能指标,该方法是建立在统计学理论基础上的机器学习方法。 SVM 可以自动寻找出那些对分类有较好区分能力的支持向量,构成一个超平面 H(d), 该超平面可以将训练集中的数据分开, 且与类域边界的沿垂直于该超平面方向的距离最大,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。

 

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页