A Language-Independent Neural Network for Event Detection

本文提出了一种混合神经网络模型,结合双向LSTM和CNN,用于不同语言的事件检测,无需手动特征编码。实验表明,该模型在英语、中文和西班牙语上表现出色,尤其在捕获序列和结构信息方面,超越了传统基于特征的方法和单一神经网络模型。
摘要由CSDN通过智能技术生成

A Language-Independent Neural Network for Event Detection

Xiaocheng Feng1, Lifu Huang2, Duyu Tang1, Bing Qin1, Heng Ji2, Ting Liu1
1Harbin Institute of Technology, Harbin, China
{xcf eng, dytang, qinb, tliu}@ir.hit.edu.cn
2Rensselaer Polytechnic Institute, Troy, USA
{huangl7, jih}@rpi.edu

1 精简总结

不同的上下文对单词语义进行编码很困难,先前的工作严重依赖语言特定的知识和已存在的NLP工具,通常是英语的,并给所有语言都有这样的资源和工具。本文提出了一种混合神经网络,可以从特定的上下文中,捕获序列信息和块信息,并使用他们为多种语言训练事件检测器,而不需要任何手动编码的特征。实验表明此方法可以为多种语言获得稳健、高效和准确的结果。

2 介绍

双向长期短期记忆(Bi-LSTM)模型(Schuster等,1997)是一种双向递归神经网络(RNN)(Mikolov等,2010),它可以捕获每个单词的前后上下文信息。卷积神经网络(CNN)(LeCun等,1995)是另一种有效的模型,用于提取语义表示和捕获平面结构中的显着特征(Liu等,2015),例如块。在这项工作中,我们开发了一个混合神经网络,包含两种类型的神经网络:Bi-LSTM和CNN,以从特定的上下文中建模序列和块信息。

我们的组合模型在跨语言的泛化性能方面优于传统的基于特征的方法,原因在于:(i)通过捕获序列和块信息来模拟每个单词的语义表示的能力;(ii)使用文字嵌入来引发触发候选人的更一般的表示。

3 方法

在本节中,我们介绍了一种混合神经网络,它结合了双向LSTM(BiLSTM)和卷积神经网络来学习句子中每个单词的连续表示。该表示用于预测该单词是否是事件触发器。具体来说,我们首先使用Bi-LSTM来编码每个单词的语义及其前后信息。然后,我们添加一个卷积神经网络来捕获来自本地上下文的结构信息。

3.1 Bi-LSTM

在这里插入图片描述
Bi-LSTM由两个LSTM神经网络组成,一个是前向LSTMF模型,另一个是后向LSTMB模型,分别对下面的上下文进行建模。LSTMF的输入是前面的上下文以及单词作为候选触发词,并且LSTMB的输入是以下上下文加上作为触发候选的单词。我们从句子的开头到结尾运行LSTMF,并从句子的结尾到句子的开头运行LSTMB。然后,我们将LSTMF的输出Fv和LSTMB的Bv连接为Bi-LSTM的输出。人们还可以尝试对LSTMF和LSTMB的最后隐藏向量进行平均或求和作为替代。

3.2 卷积神经网络

在这里插入图片描述
图3中给出了具有三个卷积滤波器的CNN的图示。让我们表示由n个单词组成的句子在这里插入图片描述

并且每个单词Wi被映射到其嵌入表示在这里插入图片描述
另外,我们添加位置特征(PF),其被定义为当前单词和触发候选之间的相对距离。卷积滤波器是具有共享参数的线性层列表。我们将卷积滤波器的输出馈送到MaxPooling层,并获得具有固定长度的输出向量。

3.3 输出

最后,我们从Bi-LSTM中学习到双向序列特征:F和B,以及局部上下文特征:C2和C3,它们是具有宽度为2和3的卷积滤波器的CNN的输出,如单个矢量O = [F, B, C2, C3]。然后,我们利用softmax方法来识别触发候选者并将每个触发候选者分类为特定事件类型。

4 实验

4.1 基线方法

  • MaxEnt:一种基于特征的基线方法,它训练了一个具有一些词法和句法特征的最大熵分类器(Ji 等,2008);
  • 跨事件(Liao等,2010):使用文档级信息来提高ACE事件提取的性能;
  • 跨实体(Hong等,2011):使用跨实体推理提取事件;
  • 联合模型(Li和 Ji,2014):一种联合结构感知方法,结合多层次语言特征,同时提取事件触发器和参数,以便可以相互改进局部预测;
  • 模式识别(Miao and Grishman, 2015),使用模式扩展技术提取事件触发器;
  • 卷积神经网络(Chen et al.,2015),利用动态多池卷积神经网络进行事件触发检测。

4.2 评价指标

在本节中,我们将描述详细的实验设置并讨论结果。我们用精度§、召回率®和F-measure (F)来评估所提出的方法在各种语言(英语、汉语和西班牙语)上的应用。表1显示了我们实验中使用的数据集的详细描述。我们将模型缩写为HNN(混合神经网络)。

表1 我们在三种语言的实验中使用的超参数和文档数量
在这里插入图片描述

4.3 英语上的比较

在这里插入图片描述
表2显示了ACE2005英语语料库中所有方法的整体性能。我们可以看到,我们的方法明显优于以前的所有方法。 HNN的更好性能可以通过以下原因进一步解释:

(1)与基于特征的方法(如MaxEnt,交叉事件,跨实体和联合模型)相比,基于神经网络的方法(包括CNN,Bi-LSTM,HNN)表现更好,因为它们可以更好地利用单词语义信息,避免错误传播的NLP的工具可能会阻碍事件检测的性能。

(2)Bi-LSTM可以捕获前后序列信息,这比依赖路径更丰富。例如,在S2中,“court”的语义可以通过我们的方法中的前向序列来传递。这是一个重要的线索,可以帮助预测“release释放”作为“ReleaseParole”的触发器。对于基于特征的显式方法,由于属于不同的条款,且之间没有直接的依赖路径,无法建立“法院”与“释放”之间的关系。在我们的方法中,“court法院”的语义可以通过前向序列传递给释放。

(3)跨实体系统实现了更高的召回率,因为它不仅使用句子级信息,还使用文档级信息。它利用事件一致性来基于跨句子推断来预测本地触发器的事件类型。例如,“攻击”事件更可能发生在“杀死”或“死亡”事件而不是“结婚”事件中。然而,这种方法在很大程度上依赖于词法和句法特征,因此精度低于基于神经网络的方法。

(4)RNN和LSTM的表现略差于Bi-LSTM。一个明显的原因是RNN和LSTM只考虑触发器的前面序列信息,这可能会遗漏一些重要的后续线索。再次考虑S1,当提取触发器“释放”时,两个模型将错过以下序列“2000万欧元到伊拉克”。这可能严重阻碍RNN和LSTM用于事件检测的性能。

4.4 中文上的比较

对于中文,我们遵循以前的工作(Chen 等,2012)并使用语言技术平台(Liu 等,2011)进行分词。

表3 中文事件检测的结果

在这里插入图片描述
表3显示了我们的模型与现有技术方法之间的比较结果(Li 等,2013; Chen 等,2012)。MaxEnt(Li等,2013)是一种管道模型,它采用人类设计的词法和句法特征。Rich-C由Chen(2012)等人开发,其中还包含中文特色功能,以改善中文事件检测。我们可以看到,我们的方法优于基于人类设计的事件触发器识别特征的方法,并实现了事件分类的可比较的F分数。

4.5 西班牙语上的比较

在这里插入图片描述

表4显示了我们的方法在西班牙ERE语料库中的表现。结果表明,HNN方法比LSTM和Bi-LSTM表现更好。这表明我们提出的模型可以在多种语言中实现最佳性能,而不是其他神经网络方法。我们没有将我们的系统与其他系统进行比较(Tanev等,2009),因为他们在非标准数据集上报告了结果。

5 相关工作

事件检测是信息提取和自然语言处理中的一个基本问题(Li等, 2013; Chen 等, 2015),其目的在于检测句子的事件触发(Ji等, 2008)。大多数现有方法将此问题视为分类任务,并使用具有手工特征的机器学习方法,例如词法特征(例如,完整单词、pos标签),句法特征(例如,依赖特征)和外部知识特征(WordNet)。还有一些研究利用更丰富的证据,如跨文件(Ji 等, 2008),跨实体(Hong等, 2011)和联合推理(Li和Ji,2014)。

尽管基于特征的方法有效,但我们认为手工设计特性模板通常需要大量的劳动。此外,特征工程需要专业知识和丰富的外部资源,这对于一些低资源语言来说并不总是可用的。此外,理想的方法应该能够自动从数据中学习信息表示,以便它可以很容易地适应不同的语言。近年来,神经网络作为一种从数据中自动学习文本表示的强大方法,在各种NLP任务中取得了良好的性能。

对于事件检测,最近的两项研究(Nguyen和Grishman,2015; Chen等,2015)探索神经网络以学习连续的单词表示,并将其视为推断单词是否是触发器的特征。 Nguyen(2015)提出了一种卷积神经网络,其中实体类型信息和单词位置信息作为额外的特征。然而,他们的系统将上下文限制为固定的窗口大小,这导致长句子的单词语义表示的丢失。我们引入了一个混合神经网络来学习连续的单词表示。与基于特征的方法相比,此方法不需要特征工程,可以直接应用于不同的语言。与以前的神经模型相比,我们保留了卷积神经网络(Nguyen和Grishman,2015)在捕获局部上下文方面的优势。此外,我们还采用了双向LSTM来模拟单词的前后信息,因为人们普遍认为LSTM擅长捕获序列中的长期依赖性(Tang等, 2015b; Li等, 2015a)。

6 总结

本文引入了一种混合神经网络模型,该模型将双向LSTMs和卷积神经网络相结合,以捕获来自特定上下文的序列和结构语义信息,用于事件检测。与传统的事件检测方法相比,我们的方法不依赖于任何语言资源,因此可以轻松应用于任何语言。我们对各种语言(英语,汉语和西班牙语)进行了实验。实验结果表明我们的方法在英语和中文竞争结果中取得了最佳表现。我们还发现双向LSTM在远距离捕获前后上下文时,对触发器提取非常有效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值