Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks

【文章来源】

Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.

【原文链接】

动态多池卷积神经网络的事件提取:http://www.nlpr.ia.ac.cn/cip/yubochen/yubochenPageFile/acl2015chen.pdf

【摘要】

传统的ACE事件提取方法主要依赖于精心设计的特性和复杂的自然语言处理(NLP)工具。这些传统的方法缺乏通用性,需要大量的人力,容易出现错误传播和数据稀疏问题。本文提出了一种新的事件提取方法,其目的是在不使用复杂的NLP工具的情况下自动提取词汇级和句子级特征。我们引入了一个单词表示模型来捕获有意义的语义规则,并采用了一个基于卷积神经网络(CNN)的框架来捕获句子级别的线索。然而,CNN只能在一个句子中捕捉到最重要的信息,并在考虑多事件句时可能会漏掉有价值的事实。因此,我们提出一种动态多池卷积神经网络(DMCNN),它根据事件触发器和参数使用动态多池层来保留更多的关键信息。实验结果表明,我们的方法明显优于其他最先进的方法。

1  介绍

事件提取是信息提取(IE)中的一项重要且具有挑战性的任务,旨在发现具有特定类型及其参数的事件触发器。目前最先进的方法(Li et al,2014; Li et al,2013; Hong et al,2011; Liao and Grishman,2010; Ji and Grishman,2008)经常使用一组精心设计的特征,通过文本分析和语言知识提取。一般来说,我们可以将这些特征分为两类:词汇特征和语境特征。

词汇特征包含词性标签(POS),实体信息和形态特征(例如,标记,引理等),其旨在捕获语义或单词的背景知识。例如,考虑下面的句子,其中有一个含糊不清的单词节拍:

S1:奥巴马战胜麦凯恩。
S2:泰森击败对手。

在S1中,节拍是Elect类型的触发器。但是,在S2中,节拍是Attack类型的触发器,这比Elect类型更常见。由于这种模糊性,传统的方法可能会将S1中的beats标记错作为Attack的触发点。但是,然而,如果我们先入为主地知道奥巴马和麦凯恩都是总统竞选人,我们就有足够的证据来预测beats是Elect类型的触发器。我们将这些知识称为词汇层面的线索。为了表示这些特征,现有的方法(Hong et al,2011)经常依赖于人工标注,这是一个耗时的过程,且缺乏通用性。此外,先前方法中的传统词汇特征是单热表示,其可能遭受数据稀疏性问题并且可能无法充分捕获单词的语义(Turian等人,2010)。

为了更准确地识别事件和参数,先前的方法通常捕获上下文特征,例如语法特征,从更大的视角理解事实是如何联系在一起的。例如,在S3中,有两个事件共享三个参数,如图1所示。从参数cameraman和trigger死亡之间的nsubj的依赖关系,我们可以在Die事件中为摄影师引入一个受害者角色。我们将此类信息称为句子级线索。然而,参数词cameraman和它触发的触发词是在不同的从句中,它们之间没有直接的依赖路径。因此,使用传统的依赖特性很难找到它们之间的目标角色。此外,提取这些特征在很大程度上取决于预先存在的NLP系统的性能,该系统可能遭受错误传播。

图1  事件提及S3的语法分析器结果。 上方显示了两个事件提及,它们共享三个参数:Die事件提及,由“死亡”触发,而攻  击事件提及由“被解雇”触发。 下方显示折叠的依赖性结果。

S3:在巴格达,一名摄影师死于美军坦克对巴勒斯坦旅馆的射击。

要正确地将cameraman作为Target参数触发,我们必须利用整个句子的内部语义,以便使得Attack事件可以导致Die事件。最近对卷积神经网络(CNN)的改进已被证明对于捕获NLP任务的句子内的单词之间的句法和语义是有效的(Collobert等人,2011; Kalchbrenner和Blunsom,2013; Zeng等人,2014)。CNN通常使用最大池化层,其对整个句子的表示应用最大操作以捕获最有用的信息。但是,在事件提取中,一个句子可能包含两个或多个事件,并且这些事件可能共享具有不同角色的参数。例如,S3中有两个事件,即Die事件和Attack事件。如果我们使用传统的最大汇集层并且只保留最重要的信息来表示句子,我们可能会获得描述“摄影师死亡”的信息但却错过了“美国坦克向巴勒斯坦酒店开火”的信息,这是对于预测攻击事件非常重要,对于将摄影师附加到作为Target参数触发的内容非常有用。在我们的实验中,我们发现这样的多事件句子占我们数据集的27.3%,这是一个我们不能忽视的现象。

在本文中,我们提出了一个动态多线程卷积神经网络(DMCNN)来解决上述问题。为了捕捉词汇层面的线索并减少人为干预,我们引入了一个单词表示模型(Mikolov et al,2013b),它已经被证明能够捕获单词的有意义的语义规律(Bengio et al,2003; Erhan等,2010; Mikolov等,2013a)。为了在不使用复杂的NLP工具的情况下捕获句子级线索,并更全面地保留信息,我们为CNN设计了动态多池层,它根据事件触发器和参数返回句子每个部分的最大值。本文的贡献如下:

  • 我们提出了一种新的事件提取框架,它可以自动从纯文本中引入词汇级和句子级功能,而无需复杂的NLP预处理。
  • 我们设计了一个动态多池卷积神经网络(DMCNN),旨在捕获句子中更有价值的信息以进行事件提取。
  • 我们对广泛使用的ACE2005事件提取数据集进行了实验,实验结果表明我们的方法优于其他最先进的方法。

2  事件抽取任务

在本文中,我们关注自动内容提取1(ACE)评估中定义的事件提取任务,其中事件被定义为涉及参与者的特定事件。 首先,我们介绍一些ACE术语,以便更轻松地理解此任务:

  • 事件提及:描述事件的短语或句子,包括触发器和参数。
  • 事件触发器:最清楚地表达事件发生的主要单词(ACE事件触发器通常是一个动词或名词)。
  • 事件参数:与事件(即参与者)相关的实体提及、时间表达或价值(如职位名称)。
  • 参数角色:参数与它所参与的事件之间的关系。

给定一个英语文本文档,事件提取系统应该预测具有特定子类型的事件触发器及其每个句子的参数。图1的上半部分描述了第1部分中S3的事件触发器及其参数。ACE定义了8个事件类型和33个子类型,例如Attack或Elect。

虽然事件提取取决于名称识别和实体提及共同参考,但它是ACE评估中的另一个困难任务,而不是事件提取任务的重点。因此,在本文中,我们直接利用ACE提供的实体标签,遵循大多数以前的工作(Hong et al。,2011; Liao and Grishman,2010; Ji and Grishman,2008)。

3  方法

在本文中,事件提取被分为两阶段,通过具有自动学习特征的动态多池卷积神经网络进行多类别分类。第一阶段称为触发器分类,其中我们使用DMCNN对句子中的每个单词进行分类以识别触发单词。如果一个句子有触发器,则执行第二个阶段,它应用类似的DMCNN为触发器分配参数并对齐参数的角色。我们称之为参数分类。因为第二阶段更复杂,我们首先在第3.1~3.4节中描述参数分类的方法,然后说明用于触发分类的DMCNN与用于3.5节中的参数分类的DMCNN之间的差异。

图2   事件提取中参数分类阶段的体系结构。它演示了一个实例的处理,其中有一个实例使用了预测值触发器和候选参数    摄像师。

图2描述了参数分类的体系结构,它主要涉及以下四个部分:(i)字嵌入学习,它以无监督的方式显示单词的嵌入向量; (ii)词汇级特征表示,直接使用词的嵌入向量来捕获词汇线索; (iii)句子级特征提取,提出DMCNN来学习句子的组成语义特征; (iv)参数分类器输出,它计算每个参数角色候选者的置信度分数。

3.1 单词嵌入学习和词汇级功能表示

词汇级特征是事件提取的重要线索(Hong等,2011; Li等,2013)。传统的词汇级功能主要包括候选词的引理,同义词和POS标签。这些功能的质量很大程度上取决于现有NLP工具的结果和人类的聪明才智。另外,传统特征仍然不能令人满意地捕获单词的语义,这在事件提取中很重要,如S1和S2所示。Erhan等人(2010)指出,从大量未标记数据中学习到的单词嵌入在获取有意义的词汇语义规则方面更加强大。本文使用无监督的预训练词嵌入作为基本特征的来源。我们选择候选词的嵌入(候选触发,候选参数)和上下文标记(候选词的左和右标记)。然后,所有这些单词嵌入被连接到词汇级特征向量L中,以表示参数分类中的词汇级特征。

在这项工作中,我们使用Skip-gram模型预先训练单词嵌入。该模型是许多NLP任务中最先进的模型(Baroni等,2014)。 Skip-gram模型通过最大化平均对数概率来训练单词\omega _{1},\omega _{2},\cdots ,\omega _{m}的嵌入,

 \frac{1}{m}\sum_{t=1}^{m}\sum_{-c\leq j\leq c}logp\left ( \omega _{t+j}+\omega _{t} \right )               

其中c是训练窗口的大小。 基本上,p\left ( \omega _{t+j}+\omega _{t} \right )被定义为:

 p\left ( \omega _{t+j}+\omega _{t} \right )=\frac{exp\left (e_{t+j }^{'T} e_{t}\right )}{\sum_{\omega =1}^{m}exp\left (e_{\omega }^{'T} e_{t}\right )}

其中m是未标记文本的词汇表。e_{i}'e_{i}的另一个嵌入,详见Morin和Bengio(2005)。

3.2  使用DMCNN提取句子级别的特征

具有最大池化层的CNN是捕获句子内长距离单词语义的良好选择(Collobert等,2011)。 但是,如第1部分所述,传统的CNN无法解决事件提取问题。 因为句子可能包含多个事件,所以只使用最重要的信息来表示句子,就像在传统的CNN中一样,将错过有价值的线索。 为解决此问题,我们建议使用DMCNN来提取句子级特征。 DMCNN使用动态多池层来获取句子每个部分的最大值,该值由事件触发器和事件参数分割。 因此,与传统的CNN方法相比,DMCNN有望获得更有价值的线索。

1. 输入

本小节说明了DMCNN提取句子级功能所需的输入。预测的触发词和参数候选之间的语义交互对于参数分类是至关重要的。因此,我们建议DMCNN使用三种类型的输入来捕捉这些重要的线索:

  • 上下文单词特征(context -word feature, CWF):类似于Kalchbrenner et al.(2014)和Collobert et al.(2011),我们把整个句子中的所有单词都当作语境。CWF是通过查找单词嵌入而转换的每个单词标记的向量。
  • 位置特征(PF):必须指定哪些单词是参数分类中的预测触发器或候选参数。因此,我们提出了PF,它被定义为当前单词与预测的触发或候选参数的相对距离。例如,在S3中,坦克与候选参数摄影师的相对距离是5。为了编码位置特征,每个距离值也由嵌入矢量表示。与单词嵌入类似,距离值随机初始化并通过反向传播进行优化。
  • 事件类型特征(EF):当前触发器的事件类型对于参数分类很有价值(Ahn,2006; Hong等,2011; Liao和Grishman,2010; Li等,2013),因此,我们将触发分类阶段预测的事件类型编码为DMCNN的一个重要线索,如PF。

图2假设字嵌入的大小为dw = 4,位置嵌入的大小为dp = 1,事件类型嵌入的大小为de = 1.令xi∈Rd采用向量表示对应的第i个单词句子,其中d=d_{\omega }+d_{p}\ast 2+d_{e}。 长度为n的句子表示如下:

x_{1:n}=x_{1}\bigoplus x_{2}\bigoplus \cdots \bigoplus x_{n} 

其中⊕是连接运算符。 因此,组合字嵌入、位置嵌入和事件类型嵌入可以转换实例作为一个矩阵x\in \mathbb{R}^{n\times d }。然后,X被输入到卷积部分。

2. 卷积

卷积层旨在捕获整个句子的组成语义,并将这些有价值的语义压缩成特征映射。通常,让xi:i + j指的是单词x_{i},x_{i+1},...,x_{i+j}的串联。卷积运算涉及滤波器w\in \mathbb{R}^{n\times d },其应用于h词的窗口以产生新特征。例如,通过以下运算符从单词xi:i + h-1的窗口生成特征c_{i}

c_{i}=f\left ( w\cdot x_{i:i+h-1} + b \right )

其中b∈R是偏置项,f是非线性函数,如双曲正切。该过滤器应用于句子x_{1:h},x_{2:h+1},...,x_{n-h+1:n}中的每个可能的单词窗口,以产生特征映射c_{i},其中索引 i 的范围从1到n - h + 1。

我们已经描述了如何从一个过滤器中提取一个特征映射的过程。为了捕获不同的特征,它通常在卷积中使用多个滤波器。假设我们使用m个滤波器W=w_{1},w_{2},...,w_{m},卷积运算可以表示为:

c_{ji}=f\left ( w_{j}\cdot x_{i:i+h-1} + b_{j} \right )

其中j的范围是1到m。卷积结果是矩阵c\in \mathbb{R}^{m\times \left (n-h+1 \right ) }

3. 动态多池

为了提取每个特征图中最重要的特征(最大值),传统的CNN(Collobert等,2011; Kim,2014; Zeng等,2014)将一个特征映射作为一个池,并且每个特征图只得到一个最大值。然而,单个最大池对于事件提取来说还不够。因为在本文的任务中,一个句子可能包含两个或两个以上的事件,一个参数候选者可能在不同的触发器中扮演不同的角色。为了做出准确的预测,有必要获取与候选词的变化有关的最有价值的信息。因此,我们根据参数分类阶段中的候选参数和预测触发器将每个特征映射分成三个部分。我们保留每个拆分部分的最大值,而不是使用整个特征映射的一个最大值来表示句子,并将其称为动态多池。与传统的最大池相比,动态多池化可以在不丢失最大池化值的情况下保留更多有价值的信息。

如图2所示,特征映射输出c_{j}被“cameraman”和“fired”分成三个部分c_{j1},c_{j2},c_{j3}。动态多池可以表示为如下公式,其中1≤j≤m且1≤i≤3。

p_{ij}=max(c_{ij})

通过动态多池层,我们获得每个特征映射的p_{ij}。然后,我们将所有p_{ij}连接起来形成一个向量P\in \mathbb{R}^{3m},它可以被认为是更高级别的特征(句子级特征)。

3.3  输出

上面提到的自动学习的词汇和句子级别特征被连接成单个向量F = [L,P]。 为了计算每个参数角色的置信度,特征向量F\in \mathbb{R}^{3m+d_{l}},其中m是特征映射的数量,并且d_{l}是词汇级别特征的维度,被馈送到分类器中。

O=w_{s}F+b_{s}

W_{s}\in \mathbb{R}^{n_{1}\times \left ( 3m+d_{l} \right )}是变换矩阵,O\in \mathbb{R}^{n_{1}}是网络的最终输出,其中n1等于参数角色的数量,包括候选参数的“无角色”标签。 在活动中扮演任何角色。 对于正则化,我们还在倒数第二层采用了退化(Hinton等,2012),通过在向前和向后传播过程中随机地降低隐藏单元的比例p,可以防止对隐藏单元的共同自适应。

3.4  训练

我们将参数分类阶段的所有参数定义为\theta =\left ( E,PF1,PF2,EF,W,b,WS,bs \right )。 具体来说,E是嵌入字,PF1和PF2是位置嵌入,EF是事件类型的嵌入,W和b是滤波器的参数,Ws和bs是输出层的所有参数。 给定输入示例s,具有参数θ的网络输出向量O,其中第i个分量Oi包含自变量角色 i 的分数。 为了获得条件概率p\left ( i|x,\theta \right ),我们对所有参数角色类型应用softmax操作:

p\left ( i|x,\theta \right )=\frac{e^{\alpha i}}{\sum_{k=1}^{n_{1}}e^{\alpha k}}

给定我们所有的(假设T)训练样例(xi; yi),然后我们可以定义目标函数如下:

J\left ( \theta \right )=\sum_{i=1}^{T}log p\left ( y^{\left ( i \right )}|x^{\left ( i \right )} \right ,\theta )

为了计算网络参数θ,我们使用Adadelta(Zeiler,2012)更新规则,通过随机梯度下降在混洗小批量上最大化对数似然J\left ( \theta \right )

3.5  触发器分类模型

在上面的部分中,我们介绍了我们的模型和参数分类功能。 上面提出的方法也适用于触发器分类,但是任务只需要在句子中找到触发器,这比参数分类简单。 因此,我们可以使用DMCNN的简化版本。

在触发器分类中,我们仅在词法级特征表示中使用候选触发器及其左右标记。 在句子级别的特征表示中,我们使用与参数分类中相同的CWF,但我们仅使用候选触发器的位置来嵌入位置特征。 此外,不是将句子分成三个部分,而是通过候选触发器将句子分成两部分。 除了特征和模型的上述变化之外,我们将触发器分类为参数的分类。 这两个阶段构成了事件提取的框架。

4  实验

4.1  数据集和评估指标

我们使用ACE 2005语料库作为我们的数据集。为了比较,与Li(2013),Hong(2011)和廖和格里什曼(2010)等人一样,使用相同的测试集与40个新闻专线文章和相同的开发集与其他30个从不同类型中随机选择的文档,其余529个文档用于训练。与之前的工作(Li et al。,2013; Hong et al。,2011; Liao and Grishman,2010; Ji and Grishman,2008)类似,我们使用以下标准来判断每个预测事件的正确性:

  • 如果触发器的事件子类型和偏移量与参考触发器的类型匹配,则触发器是正确的。
  • 如果一个参数的事件子类型和偏移量与引用参数中提到的任何一个匹配,那么这个参数就被正确地标识出来。
  • 如果一个参数的事件子类型、偏移量和参数角色与引用参数中提到的任何一个匹配,那么该参数就被正确分类。

最后以精度(P)、召回率(R)和F测度(F1)作为评价指标。

4.2我们的方法与最先进的方法

我们选择以下最先进的方法进行比较。

  1. Li的基线是Li等人提出的基于特征的系统。它只使用人类设计的词汇特征,基本特征和句法特征。
  2. Liao的交叉事件是Liao和Grishman(2010)提出的方法,它使用文档级信息来提高ACE事件提取的性能。
  3. Hong的跨实体是Hong等人提出的方法。它通过使用跨实体推理来提取事件。据我们所知,它是基于黄金标准论证候选人的文献中报道最佳的基于特征的系统。
  4. Li的结构是Li等人提出的方法。其基于结构预测提取事件。这是报告最好的基于结构的系统。

继Li等人之后,我们通过网格搜索调整了开发中的模型参数。此外,在事件提取的不同阶段,我们在DMCNN中采用了不同的参数。具体来说,在触发器分类中,我们将窗口大小设置为3,将特征映射的数量设置为200,将批处理大小设置为170,将PF的维度设置为5。在参数分类中,我们将窗口大小设置为3 ,特征图的数量为300,批量大小为20,PF和EF的维数为5。使用Adadelta更新规则(Zeiler,2012)随机梯度下降的混洗小批量用于训练和测试流程。它主要包含两个参数p和ε。我们设定p = 0.95和ε= 1e-6。对于退化操作,我们设置rate = 0.5。我们使用Skip-gram算法2在NYT语料库3上训练单词嵌入。

                                                                       表1  盲测数据的整体表现 

表1显示了盲测数据集的整体性能。从结果中,我们可以看到我们提出的具有自动学习功能的DMCNN模型在所有比较方法中实现了最佳性能。 DMCNN可以在最先进的F1(Li et al,2013)中将触发分类提高1.6%,将论角色分类提高0.8%。这证明了所提出方法的有效性。验证了该方法的有效性。此外,将Liao的交叉事件与Li的基线进行比较,说明Liao的交叉事件取得了较好的效果。我们也可以将Hong的跨实体与Liao的跨事件进行比较,将Li的结构与Hong的跨实体进行比较。它证明了使用传统的人工设计功能时,更丰富的功能集可以带来更好的性能。然而,在仅使用原始单词的自动学习特征的情况下,我们的方法可以获得更好的结果。具体而言,与Hong的跨实体相比,它在触发器分类F1上获得0.8%的提升,在参数分类F1上获得5.2%的提升。我们相信原因是我们自动学习的功能可以捕获更有意义的单词语义规律。值得注意的是,与Li的结构相比,即使我们不使用复杂的NLP工具,我们的句子和词汇特征方法也能达到相当的性能。

4.3  DMCNN对提取句子级特征的影响

在本小节中,我们证明了所提出的DMCNN对句子级特征提取的有效性。我们专门选择两种方法作为基线,用于与我们的DMCNN进行比较:Embeddings + T使和CNN。 Embeddings + T使用词嵌入作为词汇级特征和基于人类设计的传统句子级特征(Li et al,2013)。CNN类似于DMCNN,不同之处在于它使用具有最大池的标准卷积神经网络来捕获句子级特征。相比之下,DMCNN使用网络中的动态多池层而不是CNN中的最大池层。此外,为了证明DMCNN可以捕获更精确的句子级特征,特别是对于那些具有多个事件的句子,我们根据句子中的事件编号(单个事件和多个事件)将测试数据分成两部分并分别执行评估。表2显示了具有多个事件或单个事件的句子的比例以及在我们的数据集中的一个句子内包含一个或多个事件的参数的比例。表3显示了结果。

表2:一个句子中多个事件的比例。 1/1表示一个句子只有一个触发器或一个参数在一个句子中起作用; 否则,使用1 / N.

表3:传统方法,CNN和DMCNN模型事件提取得分比较

表3说明了基于卷积神经网络(CNN和DMCNN)的方法优于Embeddings + T。 证明了卷积神经网络在句子层次特征提取方面比传统的人工设计方法更有效。在表3中,对于所有句子,我们的方法比CNN实现了大约2.8%和4.6%的改进,结果证明了动态多池层的有效性。有趣的是,DMCNN对具有多个事件的句子的触发器分类提高了7.8%。这个改进比一个事件的句子要大,对于参数分类结果也可以进行类似的观察。这表明,与具有最大池的CNN相比,所提出的DMCNN可以有效地捕获更有价值的线索,尤其是当一个句子包含多个事件时。

4.4词嵌入对提取词汇级特征的影响

本节研究我们的词嵌入在词汇特征的有效性。为了进行比较,我们选择Li等人描述的基线作为传统方法,它使用传统的词法特征,如n-gram,POS标签和一些实体信息。相反,我们只使用单词嵌入(嵌入词)作为我们的词汇特征。此外,为了证明单词嵌入可以捕获更有价值的语义,特别是对于测试数据中那些在训练数据中似乎不是相同的事件类型或参数角色的单词,我们将测试数据中的触发器和参数分成两个部分(1:仅出现在测试数据中;2:出现在具有相同事件类型或参数角色的测试和训练数据中)并分别执行评估。对于触发器,测试数据中34.9%的触发器词在训练数据中从未出现相同的事件类型。这个论证的比例是83.1%。实验结果如表4所示。

表4:传统词汇特征和词汇特征的结果比较。 A表示训练和测试数据集中出现的触发器或参数,B表示所有其他情况。 

表4说明了对于所有情况,与触发器和参数的分类中的传统词法特征相比,我们的方法得到了显着的改进。对于情境B,从单词嵌入中提取的词汇级特征使触发器分类提高了18.8%,对于参数分类提高了8.5%。这是因为基线只使用离散的特性,因此它们遭受数据稀疏的问题,无法充分处理在训练数据中没有出现触发器或参数的情况。

4.5词汇特征vs.句子特征

表5:词汇级特征、句子级特征和两者结合后得到的触发分类得分和参数分类得分的比较

为了比较不同级别特征的有效性,我们分别使用词法特征和句子特征来提取事件。 使用DMCNN获得的结果显示在表5中。有趣的是,在触发分类阶段,词汇特征起着有效作用,而句子特征在论证分类阶段起着更重要的作用。 当我们结合词汇级别和句子级别功能时,可以获得最佳结果。 该观察结果表明,两个级别的特征对于事件提取都很重要。

5  相关工作

事件提取是NLP中的重要主题之一,目前已经探索了许多用于事件提取的方法。几乎所有ACE事件提取都使用监督范式。我们进一步将监督方法划分为基于特征的方法和基于结构的方法。

在基于特征的方法中,已经利用各种策略将分类线索(例如序列和解析树)转换为特征向量。 Ahn(2006)使用词汇特征(例如,全字,pos标签),句法特征(例如,依赖特征)和外部知识特征(WordNet)来提取事件。灵感来自“每个故障的一个意义”的假设(Yarowsky,1995),Ji和Grishman(2008)将来自相关文献的全球证据与当地的事件提取决策结合起来。为了从文本中获取更多线索,Gupta和Ji(2009),Liao和Grishman(2010)以及Hong等人(2011)提出了ACE事件任务的跨事件和跨实体推理。尽管这些方法实现了高性能,但是基于特征的方法在将分类线索转换为特征向量时遇到选择合适的特征集的问题。

在基于结构的方法中,研究人员将事件提取视为预测句子中事件结构的任务。 McClosky等将生物医学事件提取的问题作为依赖性解析问题。Li 等人提出了基于结构感知器和光束搜索的ACE事件提取的联合框架。为了使用句子中的更多信息,Li 等人提出基于统一结构提取ACE任务中的实体提及,关系和事件。这些方法产生相对高的性能。然而,这些方法的性能在很大程度上取决于所设计的特性的质量,且必须接受现有NLP工具中的错误。

6  结论

本文提出了一种新的事件提取方法,该方法可以从纯文本中自动提取词汇级别和句子级特征,无需复杂的NLP预处理。引入词表示模型来捕获词汇语义线索,并设计动态多池卷积神经网络(DMCNN)来编码句子语义线索。实验结果证明了该方法的有效性。

  • 3
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值