论文阅读 # Event Detection with Trigger-Aware Lattice Neural Network

最新推荐文章于 2023-05-06 14:44:22 发布

一杯红酒7

最新推荐文章于 2023-05-06 14:44:22 发布

阅读量991

点赞数 1

分类专栏：事件抽取文章标签：自然语言处理大数据

本文链接：https://blog.csdn.net/Msai25/article/details/108937019

版权

事件抽取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文提出触发感知格子神经网络（TLNN），针对中文事件检测中词触发不匹配和多义词的挑战。TLNN通过动态融合字符和词信息，以及利用外部知识库处理多义词，显著提升事件定位和分类的准确性。实验结果表明，TLNN在ACE2005和KBP2017数据集上优于现有方法，提供最优性能。

摘要由CSDN通过智能技术生成

当事件检测涉及到没有自然分隔符（个人理解：每个字之间没有分隔符，不像英文每个单词之间有空格，而中文没有，中文只有句子之间才有分隔符）的语言时，会出现两个问题

（1）基于单词的模型存在严重的word-trigger不匹配问题，限制了模型的性能；
（2）一词多义现象的存在会影响到trigger分类的性能。

所以本文提出触发感知格子神经网络（TLNN）来解决这两个问题

（1）模型可以动态地合并词和字符信息，从而避免trigger-word不匹配问题；
（2）对于多义的字或词，使用外部语言知识库对它的所有含义进行建模。

两个阶段：触发识别（Trigger Identificatio（TI））& 触发分类（Trigger Classificatio（TC））

摘要

事件检测（Event detection，ED）的目的是在原始文本中定位触发词，然后将其分类为正确的事件类型。在这项任务中，基于神经网络的模型成为近年来的主流。然而，当涉及到没有自然分隔符的语言时，会出现两个问题，例如中文。首先，基于词的模型存在字触发词不匹配的问题，限制了方法的性能。此外，即使触发词能够被准确定位，触发词多义性的模糊性仍然会影响触发词的分类阶段。为了同时解决这两个问题，我们提出了触发感知格子神经网络（TLNN）。（1）该框架动态地整合了单词和字符信息，从而避免了触发词不匹配的问题。（2）此外，对于多义字和多义词，我们借助外部语言知识库对其所有意义进行建模，以缓解歧义触发的问题。在两个基准数据集上的实验表明，我们的模型能够有效地解决这两个问题，并显著优于现有的方法，给出了最好的结果。本文的源代码可以从https://github.com/thunlp/TLNN获得。

1.介绍

事件检测（Event Detection，ED）是事件抽取的关键部分，其目的是检测事件触发词在原始文本中的位置并将其分类为相应的事件类型。传统上，定位触发词的阶段称为触发识别（Trigger Identificatio（TI）），将触发词分类为特定事件类型的阶段称为触发分类（Trigger Classificatio（TC））。虽然神经网络方法在事件检测方面取得了显著进展（Nguyen and Grish-man，2015；Chen et al.，2015；Zeng et al.，2016），但这两个步骤仍然面临以下两个问题。
在这里插入图片描述
在TI阶段，触发词不匹配问题会严重影响事件检测系统的性能。因为在没有自然分隔符的语言中，主流的方法大多是基于词的模型，在这种模型中，分词作为一个必要的预处理步骤应该首先进行。不幸的是，这些分词方法忽略了一个重要问题，即触发词可能是一个词的特定部分或包含多个词。如图1（a）所示，“射”和“杀”是两个触发词，都是“射杀”的一部分。另一种情况，“示威游行”是跨越两个词的触发词。在这种情况下，基于词的方法无法正确定位触发词，从而成为任务的一个严重限制。提出了一些基于特征的方法（Chen and Ji，2009；Qin et al.，2010；Li and Zhou，2012）来缓解这一问题，但它们严重依赖于手工制作的特征。Lin等人。（2018）针对这一问题提出了掘金建议网络（NPN），它使用神经网络在固定大小的窗口中对触发词的字符组成结构进行建模。但是，NPN机制将触发词候选范围限制在一个固定大小的窗口内，这是不灵活的，并且存在触发词重叠的问题。

即使在TI步骤中能够正确地检测到触发词的位置，TC步骤仍然会受到多义词固有的歧义问题的严重影响。因为具有多个词义的触发词可以分为不同的事件类型。图1（b）这个例子中，一个多义触发词“释放”可能代表两种截然不同的事件类型。在第一种情况下，“释放”一词会触发攻击事件（释放催泪瓦斯）。但在第二种情况下，由“释放”引发的事件变成了释放假释（在法庭上释放一名男子）。

为了进一步说明上述两个问题确实存在，我们手工统计了两个广泛使用的数据集上不匹配触发词和多义触发词的比例。统计结果如表1所示，我们可以观察到触发词不匹配和触发多义的数据占了相当大的比例，进而影响了任务。
在这里插入图片描述
在本文中，我们提出了一个可以同时解决两个问题的TLNN模型。为了避免像segmentor这样的NLP工具传播错误，我们将字符作为输入序列的基本单元。此外，我们利用知网（HowNet）（Dong and Dong，2003）这一外部知识库，对多义的汉英词汇进行人工标注，以获得语义层面的信息。进一步，我们开发了触发词感知的lattice LSTM作为模型的特征提取器，它可以同时利用字符级、词级和语义级的信息。更具体地说，为了解决触发词不匹配的问题，我们构造了捷径以链接每个词的开始和结束字符之间的单元状态。值得一提的是，路径是意义级的，这意味着所有以特定字符结尾的单词的意义信息都将流入该字符的存储单元。因此，利用多粒度信息（字、词、词义）可以有效地缓解多义词触发问题。

在事件检测任务中，我们对两个真实世界的数据集进行了一系列的实验。主要实验的实证结果表明，我们的模型能够有效地解决上述两个问题。通过与其他方法的综合比较，我们的模型在两个数据集上都达到了最新的结果。此外，还进行了一系列辅助实验来进一步分析TLNN是如何解决这两个问题的。

2.方法

本文将事件检测视为序列标记任务。对于每个字符，模型应该识别它是否是一个触发词的一部分，并将触发词正确地分类为一个特定的事件类型。
该模型的体系结构如图2所示，主要包括以下三个部分：
（1）分层表示学习，它以无监督的方式揭示了字符级、词级和语义级的嵌入向量。
（2）触发感知特征抽取器，通过树状结构的LSTM模型自动提取不同层次的语义特征。
（3）序列标记符，用于计算每个字符候选者被触发的概率。
在这里插入图片描述

2.1 分层表示学习

字符级别（character level）
给定一个输入序列S={c_1,c_2,…,c_n}，其中c_i 表示序列中的第i个字符。在字符级，每个字符将通过Skip-Gram方法表示为一个嵌入向量xc（Mikolov等人，2013）。
在这里插入图片描述
词级别（word level）
输入序列S也可以是S={w_1,w_2,…,w_M}，wi表示第i个词，使用b和e两个下标表示一个词的起始和结束，词嵌入为：

词义级别（sense level）

2.2 触发感知特征提取程序

在这里插入图片描述

LSTM https://zhuanlan.zhihu.com/p/32085405

传统LSTM
LSTM（Hochreiter和Schmidhuber，1997）是循环神经网络（RNN）的一个扩展，具有额外的门来控制信息。传统上，LSTM中有如下基本门：输入门i、输出门o和遗忘门f，它们共同控制哪些信息被保留、遗忘和输出。所有三个门都有相应的权重矩阵W。当前单元状态（cell state）c记录到当前时间为止的所有历史信息流。因此，基于字符级的LSTM函数为：
在这里插入图片描述
Trigger-Aware Lattice LSTM
触发感知的Lattice LSTM是我们框架的核心特征提取器，是LSTM和Lattice LSTM的扩展。在这一部分中，我们将对模型进行详细的推导和理论分析。
在本节中，假设字符和单词有K个意思。如2.1所述，对于第i个字符ci的第j个意义，嵌入将是s_j^(c_i ) 。
1）整合字符的多义信息
然后使用一个额外的LSTMCell来整合字符的所有意义，因此多感字符ci的单元门的计算将为：
在这里插入图片描述
通过一个 sigmoid激活函数转换成0到1之间的数值，来作为一种门控状态。通过一个tanh激活函数将转换成-1到1之间的值（这里使用tanh是因为这里是将其做为输入数据，而不是门控信号）
其中c_j^(c_i ) 是第i个字符第j个意义的单元状态cell state，c_^(c_(i−1) ) 是第i−1个字符的最终单元状态cell state。为了获得字符的单元状态cell state，使用了一个附加的字符含义门（character sense gate）：
在这里插入图片描述
然后所有的含义需要被动态整合到一个临时的cell state，如下所示。其中α_j^(c_i ) 是归一化后的字符含义门

2）整合词的多义信息

3）合并字符信息和词信息

2.3 序列标记器

本文将事件检测任务看作一个序列标注问题。对于输入序列S={c1，c2，…，cN}，有一个对应的标签序列L={y1，y2，…，yN}。将2.2中获得的每个字符的隐藏向量h用作输入。我们使用经典的CRF层执行序列标记，因此概率分布为：

序列标注：https://www.cnblogs.com/shona/p/12121473.html

在这里插入图片描述

3.实验

3.1 数据集和实验设置

数据集
本文在两个真实数据集上进行了一系列实验：ACE2005中文数据集（ACE2005）和TAC-KBP2017事件块检测评价数据集（KBP2017）。为了更好地进行比较，我们使用了与先前工作相同的数据分割（Chen and Ji，2009；Zeng et al.，2016；Feng et al.，2018；Lin et al.，2018）。具体地说，ACE2005（LDC2006T06）包含697篇文章，其中569篇用于训练，64篇用于验证，其余64篇用于测试。分别使用与2018年KB17LIN测试集相同的LD17LIN/we测试集（与2018年KB17/we测试集相同）。

评价指标
采用标准微平均精度P、召回率R和F1作为评价指标。对于ACE2005，计算方法与Chen和Ji（2009）相同。为了保持严格性，我们使用官方评估工具kit1来执行KBP2017的度量。

超参数设置
我们通过在验证数据集上进行网格搜索来调整模型的参数。利用学习速率衰减的Adam（Kingma和Ba，2014）作为优化工具。文字和感官的嵌入尺寸均为50。为了避免过度拟合，系统采用了辍学机制（Srivastava et al.，2014），辍学率设为0.5。我们通过提前停止使用验证数据集上的F1结果来选择最佳模型。由于影响有限，我们遵循其他超参数的经验设置。

3.2 总体结果

在本节中，我们将我们的模型与以前最先进的方法进行比较。建议的模型如下：
在这里插入图片描述
DMCNN（Chen et al.，2015）提出了一种动态多池CNN作为句子级特征抽取器。此外，我们使用IOB编码在DMCNN中添加了一个分类器。C-BiLSTM（Zeng et al.，2016）提出了卷积Bi LSTM模型用于事件检测任务。HNN（Feng et al.，2018）设计了一个将CNN与Bi LSTM相结合的混合神经网络模型。HBTNGMA（Chen et al.，2018）提出了一种具有门控多级注意机制的分层偏倚标记网络，将句子级和文档级信息集中集成。NPN（Lin et al.，2018）提出了一种通过自动学习触发器内部组成结构来解决触发器失配问题的综合模型。

所有模型的结果如表2所示。从结果可以看出：
（1）无论是ACE2005还是KBP2017，TLNN都显著优于其他提出的模型，在两个数据集上都取得了最好的结果。这说明触发词感知的晶格结构可以提高触发词定位的准确性。此外，由于使用了感知级别的信息，触发器可以更精确地划分为正确的事件类型。
（2）在TI阶段，TLNN的性能最好。该模型通过将所有候选词的快捷路径与当前字符连接起来，有效地利用了字符和单词的信息，从而缓解了触发词不匹配的问题。
在这里插入图片描述
（3）在TC阶段，TLNN仍然保持其优势。结果表明，知网的语言知识和动态利用语义层信息的独特结构可以提高TC阶段的表现。通过考虑触发词的模糊性，可以将更多定位的触发词划分为正确的事件类型。

3.3 触发感知特征抽取器的作用

在这一部分中，我们设计了一组实验来探索触发感知特征抽取器的效果。我们通过用标准的bilstm替换triggeraware晶格LSTM来实现基于字符和基于单词的强基线。

对于基于词的基线，首先将输入分割成词序列。此外，我们实现额外的CNN和LSTM来学习字符级特征作为附加模块。对于基于字符的基线，输入序列的基本单位是字符。然后，我们通过添加外部词级特征来增强字符表示，包括二元和软字（当前字符所在的单词）。因此，两个基线可以共同利用字符和单词信息。

如表3所示，在ACE2005和KBP2017上对两种类型的基线和我们的模型进行了实验。对于字基线，虽然添加字符级特征可以提高性能，但效果相对有限。对于char基线，当考虑到单词级别的特征时，它得到了相当大的改进。基线结果表明，集成不同层次的信息是提高模型性能的有效策略。与基线相比，TLNN在两个数据集上均取得了最好的F1得分，显示出显著的优越性和鲁棒性。结果表明，通过动态组合多粒度信息，触发词感知特征抽取器比基于特征的基线策略能更有效地挖掘更深层次的语义特征。

3.4 触发失配的影响

为了探讨触发失配问题的影响，我们将ACE2005和KBP2017的测试数据分为匹配和不匹配两种类型。表1显示了两个数据集上wordtrigger匹配和不匹配的比例。
在这里插入图片描述
每个分割触发识别任务的不同方法的调用如表4所示。我们可以观察到：
（1）结果表明字触发不匹配问题会严重影响任务的性能。除我们的方法外，所有方法在触发匹配部分的召回率都低于触发词匹配部分。相比之下，我们的模型可以稳健地解决字触发不匹配问题，在两个数据集的两个部分都达到了最佳结果。
在这里插入图片描述
（2） NPN模型在一定程度上可以通过在固定窗口内使用混合表示学习和金块生成器来缓解这一问题。然而，该机制对于字符和单词信息的集成仍然不够灵活和健壮。
（3）基于单词的基线受到触发词不匹配问题的严重影响。这种现象是可以解释的，因为如果在预处理阶段，一个触发词不能被分割成一个特定的词，就不可能被正确定位。

3.5 触发多义词的影响

在这一部分中，我们主要关注多义触发词的影响。我们选择NPN模型进行比较。我们实现了一个没有感知信息的TLNN版本，在表5和表6中表示为TLNN-w/o sense info。

表5中的实证结果显示了ACE2005和KBP2017的总体性能。我们可以观察到，去除意义信息会削弱TLNN的性能，这表明了语义层信息利用的有效性。即使没有感知信息，我们的模型在两个数据集上仍然可以优于NPN模型。

为了进一步探讨和分析词义信息的影响，我们根据触发器的多义性及其上下文将KBP2017数据集分成两部分。表6显示了每个分裂的F1分数，其中TLNN在两个“Poly”部分产生了最好的结果。如果没有感觉信息，TLNN-w/o sense-info可以在“Mono”部分给出与TLNN相当的F1分数。结果表明，触发感知特征抽取器可以动态学习汉字和单词的所有意义，在多义条件下取得了显著的改进。

3.6 案例研究

在这里插入图片描述
表7展示了两个TLNN模型对于事件检测的比较的例子，前一个例子是关于触发词不匹配的，触发词“抗”是“抗敌援友”的一部分，在这个例子中，单词基准将整个单词“抗敌援友”作为预测，因为基于单词的方法无法检测到单词触发部分。另外，NPN模型识别出一个不存在的词“刻抗”。原因是NPN枚举窗口中所有字符的组合作为触发候选，这很可能会生成无效的单词。相反，我们的模型可以准确地检测到事件触发“抗”。

在后一个例子中，触发器“送”（发送）是一个多义词，具有两个不同的含义：“送行”（送他去）和“送钱”（给他钱）。在不考虑多义词的多种词义的情况下，NPN和TLNN（无词义信息）将触发器“送”分类为错误的事件类型TransferPerson。相反，TLNN可以利用上下文信息为多态触发器动态选择单词含义。因此，可以预测正确的事件类型TransferMoney。

4 相关工作

事件检测是事件抽取任务中的一个重要子任务。基于特征的方法（Ahn，2006；Ji和Grishman，2008；Liao和Grishman，2010；Huang和Riloff，2012；Patwardhan和Riloff，2009；McClosky等人，2011）被广泛应用于ED任务中，但这些传统方法严重依赖于手动特性，限制了可伸缩性和健壮性。

近年来，深度学习的发展使人们对神经事件检测产生了新的兴趣。神经网络可以自动学习输入序列的特征并进行符号级分类。基于CNN的模型是ED中最具开创性的神经网络模型（Nguyen and Grishman，2015；Chen et al.，2015；Nguyen and Grishman，2016）。然而，这些模型只能在固定大小的窗口中捕捉局部上下文特征。一些方法设计综合模型来探索触发词之间的相互依赖性（Chen et al.，2018；Feng et al.，2018）。为了进一步改进ED任务，设计了一些联合模型（Nguyen等人，2016；Lu和Nguyen，2018；Yang和Mitchell，2016）。这些方法在英语数据集中取得了很大的成功。

然而，在没有分隔符的语言中，如汉语，触发词的错配现象变得非常严重。提出了一些基于特征的方法来解决这一问题（Chen and Ji，2009；Qin et al.，2010；Li and Zhou，2012），但它们严重依赖于手工制作的特征。Lin等人。（2018）提出了NPN，一种基于神经网络的解决问题的方法。然而，NPNs机制将触发词候选范围限制在一个固定大小的窗口内，这将导致两个问题。首先，npn仍然不能考虑所有可能的触发器候选，导致计算无意义。此外，npn中触发器的重叠现象严重。基于格的模型被用于其他领域来组合字符和单词信息（Li et al.，2019；Zhang and Yang，2018；Yang et al.，2018）。主流方法也存在触发多义的问题。Lu and Nguyen（2018）提出了一种多任务学习模型，利用词义消歧来减轻触发多义问题的影响。但在这项工作中，单词消歧数据集是必要的。相比之下，我们的模型可以同时解决词触发失配和触发策略问题。