事件共指消解系列文章——论文笔记

最新推荐文章于 2025-04-14 15:51:43 发布

原创最新推荐文章于 2025-04-14 15:51:43 发布

· 2.6k 阅读

9 ·

版权

文章标签：

#nlp

阅读笔记专栏收录该内容

17 篇文章

订阅专栏

本文综述了事件共指消解领域的关键技术，包括基于多注意力机制的方法、利用结构化表示的方法以及端到端神经网络模型。探讨了如何通过不同类型的信息（如事件类型、论元角色和事件上下文）提高事件共指消解的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

事件共指消解 KBP数据集

19.09《基于多注意力机制的事件同指消解方法》

任务描述：用于判断文档的多个事件实例是否指向同一个事件，并将相互同指的事件进行聚类，形成一个事件链。

比如：

S 1： A Cuban patrol boat with four heavily armed men landed on American shores．

S２：These bozos let four armed Cubans land on our shores．

触发词landed和land都指向同一个事件移动(Movement)类型的事件。

3.CorefNet模型

是一种带多注意力机制的卷积神经网络模型，主要解决了事件特征难以获取的问题。通过使用深层的卷积神经网络建立语言模型，自动地获取事件特征，并使用注意力机制进行加权，筛选重要的特征，通过融合两个事件的特征，判断两个事件是否同指。

1）对两个事件编码，使用卷积来提取事件特征。

2）多种注意力机制（点积注意力和自注意力）融合两个事件。点积注意力发现两个事件的共同特性，自注意力机制发现句子本身对分类任务有重要划分度的特征。

3）加入事件对特征以及语义角色特征。语义角色特征抽取了触发词周围论元特征。

4）利用分类器消解事件同指。将所有特征进行融合，使用全连接网络进行分类，给出事件同指的置信度。

3.1 模型的输入

触发词上下文10个单词作为短语特征：feat_c1、feat_c2，并记录每个单词和触发词之间的距离feat_l1、feat_l2。

语义角色标注触发词的实施者、受害者、地点和时间。实施者和受害者中含有触发词的语义角色序列特征feat_s1、feat_s2，语义角色标注描绘了句子中不同对象之间的联系，并大大简化了句子中复杂的表达。

对于事件对之间相互匹配的信息，如事件类型/只类型是否一致的特征feat_type，时态是否一致feat_realis，触发词原型、词性是否一致的特征feat_trigger，进一步来提升模型的性能。

3.2 词嵌入层

事件上下文特征和语义角色特征是一种词袋模型。根据50维预训练的glove词向量矩阵，得到词向量，将词向量w合并得到句子向量sen。

对上下文特征feat_c1、feat_c2和语义角色特征feat_s1、feat_s2进行编码，得到上下文向量ctx1、ctx2，以及语义角色向量srl1、srl2。引入了位置信息，使用随机的词嵌入矩阵对矩阵特征进行编码，得到位置向量loc1和loc2。

3.3 卷积层

卷积是对句子中相邻的单词进行采样，提取触发词上下文的特征。

避免前几层的特征在向后传播的过程丢失，采用句子向量加第三层卷积向量相加，得到V_c1、V_c2，多层相加的机制揉和不同层的特征，使得浅层中有意义的特征能被保存下来。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cUwyFJ3F-1624870336670)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210522201317257.png?lastModify=1624668870)]

3.4 多重注意力机制

点积注意力机制进行编码，得到V_m1和V_m2：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jCgjvHke-1624870336673)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210522202129918.png?lastModify=1624668870)]

点积注意力机制可以将两个向量之间有共性的值赋予较高的权值。共指事件具有公信度单词一般比较多，所以点积注意力机制对识别语义相近的共指事件有很大的帮助。

将V_m1和V_m2合并，使用自注意力机制对V_m进行编码，得到时间的特征向量V_e，自注意机制可以发现句子内部中重要的单词特征。

3.5 语义角色特征和事件对特征的引入

将语义角色向量srl1和srl2合并，得到V_s，将特征feat_type、feat_realis和feat_trigge 转化为向量V_n，将他们输入到前馈网络得到V_p，用来抽取事件对隐藏的特征。

3.6 输出层

事件特征向量V_e V_s V_p合并到V_f，用来表示两个事件的最终语义关系。使用全连接分类器，relu激活函数，通过sigmoid得到同指的置信度。

模型的损失函数：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YHGVeBFu-1624870336675)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210522204116241.png?lastModify=1624668870)]

其中：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f2itUkLe-1624870336678)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210522204142126.png?lastModify=1624668870)]

3.7 网络正则化

在词嵌入层和全连接层中使用Dropout，BatchNorm即使来防止过拟合。

19.09《基于注意力机制的事件同指消解方法》

DANGL 用于文档级的事件同指消解，神经网络模型DANGL 首先使用 Bi-LSTM 和 CNN 分别获取每个事件句的全局信息和局部信息；然后使用可分解注意力网络获取每个事件句中相对重要的信息; 最后使用文档级全局推理模型进一步优化同指链。

3 基于全局和局部信息的注意力网络

使用CNN来提取出单词的上下文特征信息，只考虑了事件句中单词与单词间的局部信息，并未注意到上下文对同指判断的影响。

DANGL通过挖掘事件句对特征信息并用事件对特征来辅助判断两个事件句是否同指。

1）在输入层中输入事件句、词性信息、位置信息、事件短句和事件对特征，并将它们拼接起来

2）基于注意力机制的混合神经网络层，使用CNN和Bi-LSTM来提取事件句的局部和全局特征。CNN可以提取局部特征，BiLSTM提取全局特征，使用分解注意力机制，简化特征信息，筛选出事件句中相对重要的特征信息。余弦相似度来计算二者的相似度

3）在输出层，通过激活函数计算置信度，如果大于0.5则判断为同指。

4）在全局推理层，对模型的判定结果进行优化。

3.1 输入层

4. 结果分析

相比于Krause，只进行了卷积操作，仅仅提取了事件句中的局部信息，说明了全局信息的重要性

相比于KBP-TOP，本文没有使用外部资源来扩充特征信息，减少了外部资源的干扰。

相比于Liu，Liu使用了许多额外挖掘出来的特征信息。

19.12《基于结构化表示的中文事件同指消解方法》

一般情况下，同一篇文档中具有同指关系的事件有着相同的参与者、事件和地点。

如：

例1 政府军从9月16日开始对阿布沙耶夫武装发动攻击。

例2 9月16日以来政府军共与阿布沙耶夫武装交战40次。

事件一和事件二的触发词指向现实世界中同一个“Attack”类型事件。两个事件的实施者、受害者和时间都一致。

本文使用结构化语句、基于门控和注意力机制的方法来解决中文事件同指消解的问题。

2 事件同指消解模型

步骤：

1、基于事件句结构化规则将事件句结构化为事件五元组的表示形式；

2、然后将数据流通过GAN- SR模型，得到同指置信度，GAN-SR主要是通过门控处理长距离以来，使用注意力机制捕获事件句有利于同指判断的重要信息，并结合事件对特征；

3、根据置信度判断时间对的共指关系。

2.1 事件结构化表示

是指从无结构文本中抽取有价值的信息，通过一个填槽过程，用结构化的方式表示事件五元组。

事件的核心是触发词，通常是决定事件类型的重要特征，而论元一般则是指事件的参与者，对时间信息的补充。往往同指关系的两个事件拥有相同的基本论元信息，将事件用论元和触发词表示。

根据LTP对事件句进行语义角色标注和依存句法分析。

其中语义角色标注是以句子中的谓词为中心，分析句子中各个成分与谓词之间的关系，确定其他论元以及论元的角色，用谓语——论元的结构描述句子；

依存句法分析是通过分析句子内的各个成分之间的依存关系构建句法结构。句子中只有一个成分是独立的，即核心词，其他都是从属其他成分

2.2 结构化规则

五元组：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6lQs6dH6-1624870336679)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523102214552.png?lastModify=1624668870)]

其中，论元1Arg1，动作V，论元Arg2，时间T，地点L

2.3 输入层

本文的输入：事件句S、事件句中每个词语离触发词的距离Loc、事件句每个词语的词性Pos、结构化的事件五元组E、标注的论元Arg、触发词上下文Con

1）事件向量：将事件句向量和词性信息、位置信息拼接成新的事件向量：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nEJK3sIA-1624870336680)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523103424179.png?lastModify=1624668870)]

2）分别使用GRU和Bi-GRU对事件句S1和S2，事件五元组E1和E2，论元Arg1、Arg2和触发词上下文Con1和Con2进行编码，得到事件向量Se1、Se2、Seb1和Seb2，，事件五元组，论元向量、触发词上下文。

事件的基本属性，可以辅助判断同指关系，比如事件类型、时间只类型、形态、极性、泛型、时态和触发词。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-POVCx8Iq-1624870336681)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523104202223.png?lastModify=1624668870)]

2.4 注意力机制层

使用多头注意力机制，探寻单个事件句自身的重要特性与两个事件句之间的重要特征。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oURt92dO-1624870336682)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523104134420.png?lastModify=1624668870)]

探寻句子自身的重要信息，再与Seb1、Seb2、Strb1、Strb2、Ab1、Ab2、Cb1、Cb2依次元素相乘，放大词语之间的向量差距，进一步增强事件句的重要信息。进而得到事件句向量ST、事件五元组StT、论元向量AT、触发词上下文向量CT。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KuMzceA8-1624870336683)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523193119031.png?lastModify=1624668870)]

探索句子之间的重要信息，同样与Seb1、Seb2、Strb1、Strb2、Ab1、Ab2、Cb1、Cb2依次元素相乘，得到事件句向量SMT，事件五元组向量StMT、论元向量AMT、触发词上下文向量CMT

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-faLV5MWu-1624870336684)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523193221688.png?lastModify=1624668870)]

最后拼接所有的结果，分别经过tanh和sigmoid函数的全连接层，得到事件句向量SU、事件五元组StU、论元向量AU、触发词上下文向量CU

再进行全局最大池化，得到向量SX、事件五元组StTX、论元向量AX、触发词上下文向量CX

2.5 输出层

最大池化的向量和实践基础属性进行拼接：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2MkybMpc-1624870336685)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523193611593.png?lastModify=1624668870)]

最后将向量V放入以使用relu激活函数的全连接分类器，通过sigmod层得到事件同指的置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1Wj7m6Jo-1624870336687)(file:///Users/daibeiya/Library/Application%20Support/typora-user-images/image-20210523193754214.png?lastModify=1624668870)]

使用dropout和normalization来防止过拟合，被判为同指的事件对组成一个事件链。

事件同指消解评测指标

MUC：考虑同指链中同指的边数量来评判模型性能，没有考虑非同指，也没有区别对待不同同指链的错误。

B^3：针对MUC的缺陷，使用同指链中的实例作为计算目标

BLANC：同时考虑了同指与非同指的关系

CEAF_e：使用Kuhn-Munkres算法，解决了B^3的缺陷

《KBP15—基于图解码的事件共指和序列解析》

Abstract

本文只讨论共指关系和依序关系。常被应用在事件指代消歧上的传统的树结构解码方式不适应解决事件依序问题。本文提出了一种适用于两种情况的新的图结构解码算法。

1. Introduction

本文事件是文本跨度实现的，通常是表示状态变化的动词和名词。

事件共指关系：类似于实体共指关系，共指问题旨在识别这些关系以从文本跨度中恢复事件。TAC-KBP事件的定义如下：如果两个事件提及在概念上是相同的基础事件，则即使它们的论据并不完全相同，也被认为是相同的。例如：《周四巴格达发生袭击事件》 vs. 《上周绿区发生爆炸》，这意味着，提及核心事件参数可以是非同义的《18个被杀死》vs.《10个被杀死》，只要根据证据判断指向同一事件。

事件依序关系：共指关系是在分散的提及中建立事件。事件排序任务是研究一种这样的关系。该脚本建议人类通过过程数据结构来组织信息，重新组合事件序列。例如，动词列表“订单”，“吃饭”，“付款”，“请假”可能触发餐厅脚本。人们可以根据常识对这些事件进行典型的排序以进行推理（例如，顺序应该是第一个事件，请假应该是最后一个事件）。事件依序任务研究如何对属于同一脚本的文本文档中的事件进行分组和排序。

事件之间存在事件顺序关系，而文本事件提及之间存在共指关系。给定一个文档，事件依序任务需要系统识别同一脚本中的事件并对其相互关系进行分类。这些关系可以表示为标记的有向无环图（DAG）。关系有两种类型：After关系，按照脚本顺序（例如，顺序后跟进餐）连接事件；子事件关系将事件连接到包含它们的更大事件。在本文中，我们仅关注After关系。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kavDZc48-1624870336688)(/Users/daibeiya/Library/Application Support/typora-user-images/image-20210506110114497.png)]

图1:事件关联和序列关系的例子。红线为参考链接;实心蓝色箭头表示Subevent关系;虚线绿色箭头表示After关系。

2. Related Work

注释语料库的可用性促进了事件共指的最新进展。由于事件的复杂性，事件共指的方法采用了截然不同的假设和定义。大多数共指事件研究都是针对流行的ACE语料库进行的。与TAC-KBP设置不同，在ACE语料库中定义事件共指关系需要严格的参数匹配。情报共同体（IC）语料库上的工作（Hovy等人，2013； Cybulska和Vossen，2012； Liu等人，2014； Araki等人，2014）考虑了受限域上的事件关系（即恐怖事件）。有关ECB语料库的工作（Lee等人，2012； Cybulska和Vossen，2014）专注于文档内和跨文档共指。

我们的工作遵循TAC-KBP事件块任务促进的工作（Mitamura等，2015）。在TAC-KBP数据集上进行事件共指的工作量很少，但仍在不断增加（Lu等，2016; Peng等，2016; Lu和Ng，2017）。与其他语料库相比，TAC数据集使用轻松的共指定义，要求两个事件提及来直观地引用同一真实世界事件，尽管参与者有所不同。

3. Model

3.1 基于图的解码模型

在普遍用于实体共指解码的潜前树（LAT）模型中，每个节点代表一个事件提及，每个弧代表一个共指关系，并且新的提及被与之前最相似的连接起来。因此，LAT模型将解码结构表示为树。这可以表示任何共指簇，因为共指关系是按定义等价关系定义的。

树结构的缺点：

不能总是完全覆盖事件序列关系图。

1）After链接是定向的，不是对称的；

2）多个事件节点可以链接到一个节点，从而产生多个父节点。

为了解决这一问题，我们对LAT模型进行了扩展，并提出了图版本，即Latent anteedent graph (LAG)模型。图中LAT和LAG与解码示例的对比。左框显示了LAT中的两个解码树示例，其中每个节点都有一个父节点。右边的框显示了LAG中的两个解码树示例，其中每个节点都可以链接到多个父节点。

$m_0$ 为根节点，按照语句顺序将文档的事件提及的定义为 $M= {m_0，m_1,……,m_n}$ ， $A_j$ 潜在先决条件的集合： $A j = {m_0，m_1，...，m_j-1}$ ，A表示序列 ${A_0，A_1，...，A_n}$ 中所有提及的先行词的集合。可以看作是从A中找到合适的先行词。

类似的，我们构建一个黄金先例集合 $set = {A^~,A_1 , ...,A_n }$ 。在共指任务中，A i包含所有与m i共指的先行词。在排序任务中，A i包含所有与m i有After关系的先行词。

现在我们可以描述解码过程。我们用 $m_i,m_j, r>(i<j)$ ，其中r为关系名。关系方向可以在关系名称r中指定(例如，r可以是after.forward或着after.backward。进一步地，根节点 $m_0$ 到节点 $m_j$ 的弧表示 $m_j$ 没有任何前置条件。弧的得分是权重参数 $w$ 与特征向量 $Φ(<m_i, m_j, r>)$ 之间的点积，其中 $Φ$ 是一个弧方向的特征函数。解码的图z可以由一组二进制变量z确定，如果有一个弧 $m_i,m_j, r>，$ $z_{ijr} = 1$ ，否则为 $z_{ijr} = 0$ 。z的最终分数是所有弧的分数之和:

3.1.1 最小化解码器结构

与LAT模型类似，可能有许多表示相同配置的解码结构。在LAT中，由于每个节点只有一个链路，不同解码结构中的链路数量是相同的，因此具有可比性。然而，在LAG中，一个节点被允许链接到多个先行词，在之后创建一个潜在的解码问题。例如，考虑序列m 1→m 2→m 3

通过对每个结构使用可传递约简图，可传递简约图包含与原始图具有相同可达性关系的尽可能少的边，结构1是结构2的可传递约简图。对于LAG，我们进一步限制Z（A）仅包含最小解码结构。

3.1.2 先行图的详细训练信息

对于每一个节点有多个先行条件。

损失：我们将损失定义为两个图中不同边的数量。根据研究，我们进一步对错误的根连接进行了惩罚：与根m0的不正确链接将损失加2。例如，在图2中，预测图（右下方）将m4与Root的链接不正确。并错过了指向m3的链接，这会导致总损失3。此外，为了与特征增量计算保持一致，我们不会针对可从黄金标准推断出的预测链接计算损失。

3.2 特征

3.2.1 共指事件特征

对于事件引用，我们设计了一个简单的特征集来捕获弧线的语法和语义相似度。表1对其主要特性进行了总结。在TAC KBP 2015协同引用任务设置中，事件提及被标注为两个属性。有38个事件类型和子类型对(例如，业务。Merge-Org Conflict.Attack)。还有3种realis类型:实际发生的事件被标记为Actual;不特定的事件被标记为Generic;其他事件(如未来事件)被标记为other。对于这两个属性，我们在特性集中使用黄金注释。

3.2.2 序列事件特征

事件排序系统需要确定事件是否在相同的脚本中，并对它们进行排序。我们设计了单独的特性集来捕获这些方面:脚本兼容性集考虑提到是否应该属于同一个脚本；事件排序集决定了提到的相对顺序。我们最终的特征是以下3个特征的交叉积。

基于表面脚本兼容性：这些特征根据表面信息捕获两个提到是否脚本兼容：提及词目、事件类型对
基于语句脚本兼容性：这些特征捕捉在给定的语句语境下，两个事件提及是否相关。比如：两个提到之间的依赖路径。
事件排序：此特性集捕获事件的顺序。我们使用两个提到的话语顺序（forward：先行词是父词；backward：先行词是孩子），以及由Caevo产生的时间顺序。

以after弧为例，从fired到killed的，交叉乘积后的特征为：事件类型对为“conflict.Attack”和"Life.Die"，事件排序为backward，句子的距离为0。

4. 结果

4.1 事件共指的评价结果

17《Joint Learning for Event Coreference Resolution》

18《Improving Event Coreference Resolution by Modeling Correlations between Event Coreference Chains and Document Topic Structures》

《通过对事件关联链和文档主题结构之间的关联建模来改进事件关联解析》数据集：KBP2016、KBP2017

github: https://github.com/prafulla77/ACL-2018-Event-Coreference

1、运行https://github.com/prafulla77/TAC-KBP-2017-Participation提取事件提及，获得对等关系的两两评分。

2、运行https://github.com/PrincetonML/SIF生成成对的句子相似度分数。

3、使用论文中描述的模式提取子事件(一个句子中使用“conj:和”或“ccomp”依赖关系来修改父动词的两个或多个动词事件的序列被提取为子事件)。

4、new_test_ILP.py运行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3JktN2JO-1624870336689)(/Users/daibeiya/Library/Application Support/typora-user-images/image-20210625223013693.png)]

摘要

本文提出了一种新的事件关联解析方法，该方法通过整数线性规划的形式对事件关联链和文档主题结构之间的关联进行建模。我们明确地建模了一个文档的主要事件链之间的关联，包括主题转换句、内部关联引用链、事件提及分布特征和子事件结构，并结合局部引用关系分类器获得的分数，联合解析文档中的多个事件链。我们在2016和2017年KBP数据集上的实验表明，每种结构都有助于提高事件关联分辨率性能。

Introduction

相比之下，大多数事件在文本中只出现一次，重复它们的动机较少：一个故事主要由一系列相关但不同的事件组成。从本质上讲，(1) 仅当必须描述事件的新方面或更多信息时才返回相同事件，以及 (2) 相同事件的重复主要用于内容组织目的，因此，与主题结构。

共指事件提及很少来自同一个句子（10%），并且通常是分开的句子。

为了解决文档中事件共指关系的严重稀疏问题，我们提出了一种整体方法，通过考虑事件提及与文档主题结构的相关性来识别事件提及之间的共指关系。我们的主要观察结果是事件提及成为文档的支柱，而同一事件的关联提及在实现连贯的内容结构方面起着关键作用。

在图 1 中，标题 (H) 中提到了事件“Hearing”和“detention”，在第一句 (S1) 中作为故事概述，在第二句 (S2) 中用于过渡到正文部分描述听证会期间发生的事情的故事，然后在第五句 (S5) 中用于过渡到描述听证会后发生的事情的故事的结尾部分。通过将单个事件提及附加到一个连贯的故事及其主题结构，我们的方法可以识别由于两个事件提及的本地上下文不匹配或事件提及之间的长距离而不容易看到的事件共指关系。

如图，就实体而言，实体同指的分布大概率在同一句话或相邻句中，而事件同指的出现则比较分散，间隔多句出现的可能性也很大。

就以上问题，作者提出一张基于文章主题结构的同指识别方法。主要的理论依据是以下两点：

一个事件同指的出现往往是为了描述这个事件的新的方面或者新进展。
一个事件的重复提及主要是为了组织文章内容，所以一定与该文的文章主题有高相关度。

作者结合了事件同指链和文章主题结构之间的多方面关系，在线性整数规划（ILP）的框架下进行了建模。

2. 事件引用链和文档主题结构之间的相关性

四个方面的相关性建模

主同指链与主题过渡句的相关性

文章的主事件通常有多个相关事件 mention，这些事件描述占文章的很大一部分，并且与文章主题过渡句的布局结构很一致。

所以作者通过设计约束条件和修改目标函数来建立文章主题过渡句中事件 mention 之间的同指关系。此外，为了避免部分事件链支离破碎，并建立主要事件的完整链，鼓励将更多的相关事件 mention 关联到一个较大延伸的链。

语义关联的同指链之间的关联

语义相关的事件一般出现在同一个句子中。换句话说，语义相关的两个事件的同指链很有可能相似。比如“逮捕”和“拘留”。所以，作者认为如果一些句子中存在已知的同指链，那么这些句子中的其他事件也可能成为同指链。

文章体裁的特有分布方式

不同类型的文本都有其相似的行文形式。就新闻文本来说，文章的开始往往是对整个事件的总结，然后介绍主要事件及其密切相关的事件。因此，大多数事件同指链倾向于在文本的早期建立。在后面的段落中的事件 mention 一般会是前文已建立同指链的延续，或者作为单独的事件而存在，然而，它们不太可能建立一个新的共指链。所以，作者认为要使同指链的产生尽量来自于文本开头部分。

子事件

子事件一般是父事件的补充，子事件可能与父事件共享相同的词法形式，并导致错误的事件共指链接。子事件一般是详细的动作描述事件，且往往是独立的，所以，作者尽可能不让描述详细动作的事件出现在已有其他的同指链中。

4. 模型

我们通过将事件共指消解任务定义为一个整数线性规划(ILP)问题来建立语篇层次的事件-话题关联结构模型。我们的基线ILP系统是根据从基于成对神经网络的共参照分辨分类器中获得的事件提及之间的成对得分来定义的。

4.1 局部成对引用解析分类器

本文使用基于事件 mention 对特征的神经网络模型。

第一层是一个 347 个神经元的共享层，以生成词向量（300 维）和词性标记（POS）（47 维）。公共层的目的是用 POS 标记丰富事件词向量。

第二层由 380 个神经元组成，用来嵌入事件词的后缀（-ing 等）和前缀（re- 等）、两个事件 mention 的词向量之间的距离（欧几里德、绝对和余弦）以及两个事件 mention 之间的公共论元。第二层的输出被连接起来，并被送入第三层。

第三层有10个神经元，然后经过一个全联接层，产生一个分数，表示该对事件 mention 的同指可能性。

三个层和输出层都使用 sigmoid 激活函数。

先用 KBP 2015 训练这个分类器，训练的结果要在后面使用。

4.2 事件共指的基本ILP

设 λ 代表一篇文章中的所有事件 mention，Λ 代表所有可能的事件 mention 对， $p_{ij}$ 代表 i , j 两个事件 mention 成为同指的可能性，即上一步分钟分类器的输出。

我们可以通过最小化 $\Theta_B$ ，来获得 baseline 的目标函数。

其中，第二个式子是对每三个事件 mention 所加的限制，是为了保证事件同指的传递性，即当 $x_{ij}=x_{jk}=1$ 时， $x_{ik}=1$ 接着，在此基础上，作者对每一种第 1 点中的关系增加不同的目标函数。

4.2.1 主同指链与主题过渡句的相关性建模

如示例图1所示，主事件很可能在主题过渡句中出现mention。因此，我们在基本目标函数中增加以下目标函数(公式3)，并增加新的约束条件4，以鼓励主题转移句中出现共指事件提及。

设 $\Omega$ 代表文章中所有满足 $(n-m)\ge\cfrac{|S|}{\theta_s}$ 的句子对集合， $s_{mn}$ 代表两个句子之间的相似程度， $w_{mn}$ 代表这两个句子是否是文章的主题过渡句。

n−m 代表两个句子之间的距离，｜S｜代表文章中句子的总数，本文中 $\theta_s$ 取 5。

当两个句子之间的相似程度大于 0.5 时，倾向于设置$ w_{mn}=1$

且需要满足最后一个式子，其中 $\xi_m$ 代表在句子 m 中事件 mention 的集合。这样就保证了两个主题过渡句中至少有一个同指事件对。

避免事件链破碎的约束

以上的限制虽然可以保证主题过渡句内有同指事件对，但很有可能造成事件链破碎。为解决此问题，建立如下限制：

4.2.2 跨同指链相关约束

如果已知两个同指链中的事件同时出现在多个句子中，若其中有一个同指链中的 mention 出现在一个句子中，则倾向于这句话中存在其他 mention 且被链在另外一个同指链上。

作者在本文中将此限制简化成了希望每对句子中的同指事件对越多越好，这里的句子对需要满足两个句子都要包含两个及以上的事件 mention。

4.2.3 文章体裁的特有分布方式

4.2.4 子事件链的同指约束

结果

本文选用 KBP 2015 作为训练集。KBP 2015 中包含 181 篇论坛讨论帖和 179 篇新闻文章。作者随机挑选出 50 篇新闻文章来微调 ILP 中的参数，其他的 310 篇文章用来训练局部事件对分类器。

由于论坛文章杂乱无章，没办法分析文章体裁的特有分布方式，所以测试时只使用 KBP 2016 和 KBP 2017 中的新闻类文章，在比较时 baseline 的分数也只测了在新闻文章上的效果。

可以看到本文的 ILP 模型有较好的效果。然而，在 KBP 2017 中最后一条限制，有了一些下降，主要是因为本文模型在 KBP 2017 中只提取到 31 个子事件，而在 KBP 2016 中提取到了 211 个子事件。

作者认为本文的模型是具有普遍利用价值的，在文中有一条限制是根据本文（新闻）的特征提出的，作者觉得很多文本都是有其自己的特征的，举了诊断报告（clinic notes）的例子。

5.2 事件提及识别

我们使用多层前馈神经网络分类器集成来识别事件提及。所有的基本分类器都是根据词汇的局部上下文特征进行训练的。其特点包括词理的嵌入、词与词理的嵌入的绝对区别、词的前缀、后缀和post -tag以及上下文词、修饰语和调控语的依存关系。

我们在相同的特征集上用不同的神经网络结构和不同的训练参数(包括dropput、优化器、学习率、epoch和网络初始化)训练了10个分类器。所有的分类器分别在输入层、隐藏层和输出层中使用relu、tanh和softmax激活。我们使用GloVe向量(Pennington et al.， 2014)进行单词嵌入，使用one-hot向量对每个模型中的post -tag和依赖关系进行处理。Postagging、依赖解析、命名实体识别和实体关联解析使用Stanford CoreNLP

表2显示了事件提及的识别结果。我们基于KBP评分器报告事件提及标识的F1评分，如果提及的跨度、类型和子类型与黄金提及相同，则认为该提及是正确的，如果跨度部分与黄金提及重叠，则分配一个部分评分。我们还报告仅考虑提及范围而忽略提及类型的事件提及标识F1分数。我们可以看到，与最近的(Lu and Ng, 2017)同时进行事件提及检测和事件关联解析的系统相比，检测事件提及的类型是我们的事件抽取系统的主要瓶颈。

请注意，官方的KBP 2017事件关联解析评分者认为，如果一个提及对关联对象在事件类型和子类型上严格匹配，这在最近被讨论为过于保守(Mitamura et al.， 2017)。但是由于改进事件提及类型检测并不是我们的主要目标，因此我们放松了约束，在评估事件关联解析系统时不考虑事件提及类型匹配。这允许我们通过忽略来自上游任务的任何偏差来直接解释文档结构在事件关联解析任务中的影响。

19《Improving Event Coreference Resolution by Learning Argument Compatibility from Unlabeled Data》

《通过从无标记数据中学习参数兼容性改进事件关联解析》数据集：KBP2015、KBP2016、KBP2017

摘要

参数相容性是现代事件消歧系统中经常出现的一种语言条件。如果两个事件提到在任何一个参数角色中有不相容的参数，它们就不能被关联。另一方面，如果这些mention有兼容的参数，那么这可能被用来作为信息，以决定他们的共同消歧的参照。

利用参数兼容性的关键挑战之一是标签数据的缺乏。在这项工作中，我们提出了一个迁移学习框架，利用大量的未标记数据来学习两个事件提及之间的参数兼容性。此外，我们采用了一个基于交互推理网络的模型来更好地捕获两个事件提及上下文词之间的兼容关系。我们在KBP 2017英语数据集上的实验证实了我们的模型在学习参数兼容性方面的有效性，这反过来提高了整体事件关联模型的性能。

问题描述

当两个论元在句子中的地位相同、描述的具体程度相同，但是对应描述的现实世界的实体不同则称它们是不兼容的，其余情况皆为兼容。

例：对于时间论元来说，”2012年“和”星期三“是兼容的，因为这两个时间描述的具体程度不一样。而“2012年”与“2005年“就是不兼容的。

其他句内地位（包括施事者、受施者、地点等）也如此。

作者认为如果两个事件中存在论元不兼容的情况发生，那么它们一定不是同指的。尽管论元兼容性很重要，但由于缺乏足够的标记数据，将论元兼容性引入事件同指是一项具有挑战性的工作。

许多现有的工作都将论元抽取作为上游组件，并设计论元特征来实现事件共指识别中的论元兼容性识别。然而，在每个步骤中引入的错误会通过这些解析器传播，并极大地阻碍了它们的性能。

本文将论元兼容性知识推理迁移到事件同指的框架中，具体地说是采用交互式推理网络作为模型结构。

训练一个模型——确定事件对的对应论元是否兼容。
为了将论元兼容性的知识迁移到事件同指中，以前一步训练的模型为起点，训练它来确定两个事件提及是否在人工标注的事件共指语料库上是共指的。
迭代地重复上述两个步骤，使用学习的同指模型来重新标记论元兼容性（同指论元一定兼容），重新训练该模型以确定论元兼容性，再使用生成的预训练模型学习事件同指识别模型。本质上是相互引导论元兼容性确定任务和事件同指识别任务。

3. 方法

本文的模型训练分为两步：1.预训练论元兼容性模型；2.微调该模型成为事件共指识别模型

3.1 论元兼容性识别

在此部分数据不是 gold 的，来自于语料库 English Gigaword 包含五处不同资源的新闻。

任务定义

给定一对带有相关触发器的事件提到(ma, mb)，预测它们的参数是否兼容。在这里，事件提到由触发器周围的n个单词窗口中的触发器词和上下文词表示。

兼容样本抽取

对于每个文档，我们抽取事件mention对，用相关触发器和是否满足以下条件：

其中第一条到第四条是对于（DATE、PERSON、NUMBER、LOCATION）这四种不同的论元短语，使用命名实体识别技术（NER）进行抽取，如果存在，必须要有一个重复的单词，如果在某一事件 mention 中有两个或以上相同类别的论元时则取其中距离触发词近的那一个。
除了虚词外，上下文的单词重复率不能超过 30%。

目的是既要排除一眼就能看出来不一样的（一到四），也要排除一眼看起来就一样的（五）防止模型学习时认为单词重复率越高兼容/同指率越高。

不相容样本提取

对于非兼容性样本，本文加了两条限制。

两端文本的产生时间必须间隔一个月以上，防止这两个事件 mention 是同指的；
除了触发词和虚词，两段事件 mention 必须有一个以上的重复单词，也是为了防止模型学习的结果基于两段 mention 中是否存在重复单词。

参数分类的兼容性

本文将在以上抽取出的数据集上训练一个二分类器，即为论元兼容性分类器，具体模型在第 4 点中阐述。

3.2 事件同指

这部分中训练数据都是 gold 的，是 KBP 2015 和 KBP 2016，且将 KBP 2017 作为测试。

3.2.1 检测事件mention

在进行事件关联解析之前，我们必须识别文档中提到的事件。我们训练了一个单独的事件提及检测模型来识别事件提及及其子类型。

在事件检测任务中，训练一个单独的模型，抽取出事件 mention 以及对应的事件类型。将事件检测视为一个多分类问题。给定一个候选词及其上下文，我们预测由该词触发的事件的子类型。如果给定的候选单词不是触发器，我们将其标记为NULL。规定触发词一定是在上一步的训练集中出现过的词，且不考虑多词触发词的情况（触发词只能是一个词）。

对于句子中的每个候选词，其隐含表示被输入到推理层来预测类标签。由于类的分布是高度不平衡的，NULL标签的数量明显超过所有其他标签，我们在推理层使用加权的softmax来获得每个类的概率。在本工作中，我们将NULL类标签的权重设置为0.1，将所有其他类标签的权重设置为1。

在这个后处理步骤中，我们忽略了接触(contact)、移动(movement)和交易(transaction)三种类型的事件提及，因为这三种类型下的子类型在同一文档的不同句子之间并没有很好的一致性。

对于每一句话，首先串联这句话的 word embedding 和 character embedding，将结果输入到 biLSTM 层，最后通过一个 inference 层预测结果。

3.2.2 mention对事件消歧模型

在之前的论元兼容性识别模型基础上，进行微调。首先对每对事件 mention 进行打分，再将同指于同一事件的 mention 生成同指链。

3.3 迭代重标记训练

最开始那个兼容性样本尽管经过一些规则限制，但一定会有很多噪声。作者提出以下的优化算法。

首先计算在兼容性样本中事件 mention 的同指可能性，如果可能性高于 $\theta_M$ 就被加入新的兼容性样本中，同时，如果同指可能性低于 $\theta_m$ 就将该事件 mention 对加入原有的非兼容性样本。然后再次训练论元兼容性识别模型。

在本文中$ \theta_M $取 0.8 ，$ \theta_m$取 0.2。

3.4 模型结构

输入

$m_a = \{w_a^1,w_a^2,...,w_a^N\}$

$m_b = \{w_a^1,w_a^2,...,w_a^N\}$

输入是是两个 mention 包括触发词加其上下文，上下文的范围是一个 n-word 窗口，n 为 10。

Embedding 层

包含 Word embedding（GloVe）和 Character embedding（CNN）。

我们通过以下组件的串联来表示每个输入标记:

Word embedding

我们使用预先训练好的词向量来初始化词嵌入层。字符嵌入要识别个人、组织或位置名称的兼容性，词汇表外(OOV)词的处理是至关重要的。添加字符级嵌入可以缓解OOV问题。因此，我们在每个标记的组成字符上应用卷积神经网络来获得相应的字符嵌入。

POS和NER的one-hot向量

精确匹配

给定的 token 是否在两个 mention 中都存在

触发位置

token 是否是触发词。

编码层

我们将嵌入向量序列传递到biLSTM层，采用一个 biLSTM 进行编码：

$\mathbf h_a^i = \mathrm {biLSTM}(\mathrm{emb(}w_a^i),\mathbf h_a^{i-1})$
$ \mathbf h_b^i = \mathrm {biLSTM}(\mathrm{emb(}w_b^i),\mathbf h_b^{i-1})$

其中 $e m b (w)$ 为令牌 $w$ 的嵌入向量。得到一个隐藏向量序列大小为|h|。

Interaction 层

基于隐向量 $h_a$ 和 $h_b$ 捕获两个事件提及之间的关系。相互作用张量 $I$ 是一个三维形状张量 $(N, N, ∣ h ∣)$ ，通过对相应的隐藏向量进行成对相乘来计算:

$I_{ij}=\mathbf h_a^i\circ\mathbf h_b^j$

然后通过一个多层的卷积神经网络来提取事件对特征向量 $ f_{ev}$。

inference 层

在预训练阶段，在第一个模型（论元兼容性模型）中，将 $ f_{ev}$输入到全连接层，对参数兼容性进行二分类预测。

在微调阶段，在第二个模型（事件同指识别模型）中加了一个辅助向量 $ f_{aux}$ 连接到$ f_{ev}$，包括两个句子之间的距离信息（独热向量）和两个触发词之间 word embedding（独热向量）的差别。之后也是一个全联接层，输出一个多分类。

4. 实验

4.2 结果

在下文中，我们比较了具有不同网络架构和实验设置的方法的性能。

网络架构比较

我们比较了交互式推理网络（Interact）和 biLSTM 基线模型（biLSTM）的结果。

biLSTM 基线模型没有交互层。相反，biLSTM 层的最后一个隐藏向量被连接起来并直接传入推理层。

当仅在事件共指语料库（标准）上进行训练时，具有交互式推理网络的模型的性能略好于 biLSTM 基线模型，如第 1 行和第 3 行所示。但是，通过额外的参数兼容性学习（迁移）预训练步骤，交互推理网络明显优于 biLSTM 基线模型，如第 2 行和第 4 行所示。我们得出结论，交互推理网络可以更好地捕获两个事件提及之间的复杂交互，从而解决性能差异。

迁移学习的效果

无论网络结构如何，我们都观察到通过将模型预训练为参数兼容性分类器来显着提高性能。该框架利用大型未标记语料库来执行参数兼容性学习。

迭代重新标记的效果

我们通过使用经过训练的事件共指解析器重新标记训练样本以进行参数兼容性学习，从而实现了性能的又一次提升。然而，我们无法通过更多的重新标记迭代（第 6 行）获得进一步的收益。我们推测不同迭代中事件共指模型预测的差异不足以产生可感知的影响，但需要额外的实验来确定原因。

5. 讨论

我们对我们的最佳性能系统在事件共指数据集和从未标记语料库中提取的未见事件提及对的输出进行定性分析。

5.1 兼容性分类

我们关注具有兼容或不兼容参数的相关触发器的样本（表 4）。这些样本大致可以分为以下几类：

显式参数兼容性

上下文中相同/不同的时间短语、数字、地名或人名的存在是否兼容是最显式的形式。

利用这种性质，我们对从未标记语料库中获取的兼容样本集进行过滤，以删除具有明确不兼容的样本。

我们的模型可以以相对较高的准确度识别这种类型的（不）兼容性。表 4 中显示的两个示例都被正确预测（第一行和第二行）。

隐式参数兼容性

具有隐式（不）兼容参数的事件对需要外部知识来解决。

1）在第一个例子中，需要知道 60 多岁的女性通常不被称为年轻，才能确定不相容性。

2）要正确分类第二个示例，需要知道脑出血和车祸都是人的死因。

我们的系统能够在一定程度上捕获隐式（不）兼容性。

一般特定的不兼容性

描述一般事件的事件提及对事件共指解析任务提出了特殊的挑战。

在表 4 中，我们展示了该类别的两个典型示例。

1）第二个事件提及并不指现实世界中的任何特定射击事件，与第一个事件提及相反，它描述了一个特定的学校枪击事件。

2）与第二个示例类似，其中第一个事件提及描述了一般事件，而第二个事件提及描述了一个特定事件。

一般事件提及通常很少甚至没有参数和修饰符，这使得非共指关系的识别非常具有挑战性。由于我们不能依赖参数兼容性，因此需要更深入地了解事件提及的语义。一般事件提及占我们系统错误的很大一部分，因为它们在新闻文章和论坛主题中非常普遍。

5.2 案例研究

具体来说，对于给定的一对事件提及，我们首先只更改一个参数，并保持其余内容固定。然后我们观察系统在改变参数的不同变体中的行为（表 5）。

示例 I

在此示例中，我们选择 AGENT-argument 作为目标并更改第二个事件提及的 AGENT-argument。由于史蒂夫乔布斯和约翰之间的显式不兼容，事件对 (m 1 , m 2 a ) 是不相关的，并且系统的预测也是不相关的。此外，我们将目标参数更改为代词 she (m 2 b )，导致 AGENT 参数中隐含的不兼容，因为 Steve Jobs 通常不被视为女性名字。正如预期的那样，系统将事件对 (m 1 , m 2 b ) 分类为非相关。最后，当我们将目标参数更改为 he (m 2 c ) 时，系统正确地将结果对分类为相关。

示例 II

在此示例中，我们选择 PATIENT-argument 作为目标并更改第二个事件提及的 PATIENT-argument。系统将事件对 (m 1 , m 2 a ) 分类为相关，考虑到存在显式兼容参数家庭主妇和 29 岁家庭主妇，这是合理的。此外，当我们将目标参数更改为女人 (m 2 b ) 时，系统输出仍然是相关的。这与我们的预测一致：仅从两个事件提及的上下文判断，事件提及很可能是一致的。但是，当我们将目标参数更改为医学生 (m 2 c ) 时，由于医学生和家庭主妇之间的不兼容，事件对将变得不相关。系统正确地对事件对进行分类。

示例 III

在此示例中，我们选择 REASON 参数作为目标并更改第二个事件提及的 REASON 参数。事件对 (m 1 , m 2 a ) 在 REASON 参数角色中具有一对隐式兼容参数，并且很可能是相关的。相比之下，将目标参数更改为有争议的公民身份修正法案 (m 2 b ) 将产生一对隐含的不兼容参数，并且由此产生的事件对将变得不相关。我们的系统正确地对两个事件对进行了分类。

20《End-to-End Neural Event Coreference Resolution》

《端对端的事件消歧》数据集：KBP2016、KBP2017

摘要

传统的事件共指系统依赖于管道框架和手工制作的特征，存在错误传播问题，泛化能力较差。本文提出了一种端到端事件关联方法E3C神经网络，该神经网络可以联合建模事件检测和事件关联解析任务，并学习自动从原始文本中提取特征。此外，由于事件提及的高度多样性和事件指代受长距离、语义依赖决策的复杂控制，我们在E3C神经网络中进一步提出了类型引导的事件指代机制。实验结果表明，该方法在两个标准数据集上都取得了较好的性能。

1. 介绍

事件关联解析旨在识别文档中提到的事件指的是同一事件(Ahn, 2006;Hovy等人，2013)。例如，图1中提到的两个事件，leaving和leave，指的是诺基亚CEO的相同的EndPosition事件。

2. 端对端的事件消歧模型

给定一个文档$D = { w_1, …, w_n} $，端对端的模型需要：

1）检测事件mentions ${m_1,...,m_l}$

2）预测所有的事件共指链{ev*}

mentions：{departing, …,goodbye}，两个事件共指链被预测为：{departing, leave, goodbye}，和{rejoin}。

我们的E3C方法首先通过mentions提议网络检测mentions候选项，然后通过mentions预测网络识别所mentions的先行词。为了解决提及多样性问题和长距离共指问题，本文设计了一种类型引导的事件消歧机制，如图2所示。E3C中的所有组件都是可微分的，可以以端到端方式进行训练。下面，我们将详细描述它们。

2.1 mention候选词提议网络

在文档中检测出事件mentions，比如{departing, …,goodbye, rejoin}，因为事件mentions是高度多样化的表达(例如，goodbye, former和leave for EndPosition)，我们首先通过上下文化的表示层捕获所有tokens的语义信息，然后通过提到提议层识别mention候选对象。

上下文化的单词表示层

为了捕获事件提及的语义信息，我们学习每个tokens的上下文化表示。具体来说，我们首先基于预训练的BERT嵌入获取每个tokens的任务独立表示。一个token $w_i'$ 表示是使用标量混合汇集不同BERT层，，其中 $x_i^{(j)}$ 是BERT第j层的token i的embedding，d是伯特嵌入的大小，αj softmax-normalized权重，γ是一个标量参数。

因为事件参数可以提供关键证据，通过隐式地从原始文本中提取参数信息，我们进一步获得了事件特定的标记表示。具体来说，我们设计了mask注意力机制。给定独立任务token表示 $H = {h_1, h_2，…， h_n}$ ，我们的注意机制首先在没有线性投影的情况下，通过缩放的点积注意对tokens之间的相关性进行建模，然后计算最终上下文化的单词表征 $C = {c_1, c_2，…， c_n}$

其中c为局部窗口的大小，本文主要关注局部上下文，因为经验上在事件mention都在附近出现参数，本文设c = 10。

mention提议层

给定一个token，mentions建议层给每个span分配一个分数 $S_{(m)}(i)$ ，这表示span i作为事件mention的可能性。

给定文档中限制长度的所有跨度，提述建议层将每个span i表示为 $g_i =ˆc_i$ ，其中 $ˆc_i$ 是span i 中所有token表示的基于注意力的软头聚合。给定g i，通过标准前馈神经网络计算提分 $S_{(m)}(i)$ :

最终取前l个mentions。

2.2 预测先行词通过基于类型的先行词网络

给定一个事件mention，类型知情的先行词网络预测其先行词，而先行词预测可以被用作局部成对的参考决策。例如，我们的方法将在图1中预测 departing 的先行词，〈departing, leave〉可以作为成对的参考决策。

在mi的 ${m_1，…， m_l}$ ，类型引导先行词网络同时产生两种得分：

1)提到mj的得分 $S (i ， j)$ 是m_i的先行词，其中mj必须出现在mi之前；2） $s(i, t_k)$ ， $m_i$ 是类型 $t_k$ 的得分。

先行词得分

给定一个mention mi，先行词网络计算出每一对<mi, mj>的得分：

其中第三项的计算：

事件类型得分

事件关联受到长距离、语义依赖的决策的复杂控制。为了解决这个问题，本文利用事件类型信息来更好地解决事件引用。具体来说，除了对每次提及进行前件预测外，我们还对其事件类型进行了进一步预测，从而实现：1)引导神经网络捕获更多关于事件提及的语义信息；2)类型信息保证了共引用解析过程中的全局类型一致性，即同一共引用链中的提及具有相同的事件类型。

具体来说，我们首先嵌入所有事件类型T = {t1，…， t t}，通过分层嵌入算法。 $t_k$ 的嵌入为 $g_{t_k} = W_e · [e_{event}，e_{type}(t_k)]$ ，其中 $e_{event}$ 为所有事件类型共享， $e_{type}(t_k)$ 表示嵌入 $t_k$ , $W_e$ 是一个映射矩阵。 $g_{t_k}$ 的维数和提到嵌入 $g_i$ 是一样的。

然后通过相同的评分函数计算类型得分 $s(i, t_k)$ ，用于先行词预测：

对于不是mention的span，我们加入一个dummy 先行词。

通过这种方式，我们可以得到通过类型引导的先行词网络的每一个mention的先行词的分数和类型分数。

2.3 通过类型改进增强mention表示

在本节中，我们将描述如何使用类型信息进一步细化提到表示，以便它能够捕获更多语义信息用于事件关联解析。例如，虽然goodbye和leaving在词汇上是不同的，但我们仍然可以通过进一步编码它们的事件类型信息来捕获它们的语义相似性，即它们都有相同的事件类型EndPosition。

为了改进mention表示，我们通过对每一个span mi的事件类型T和 ${\epsilon}$ 改进了概率分布 $Q(t_k)$ ：

其中 $s(i, t_k)$ 是类型得分，然后用概率分布得到每一个span mi的事件类型表示~gi：

然后得到改进的span表示~ gi’，然后，我们通过可学习的自适应门fi，将预期事件类型表示~ gi和原始跨度表示gi结合起来，得到了一个改进的跨度表示gi’：

最后，先行词网络将使用改进的跨度表示gi '重新计算共指先行词得分 $S ’ (i ， j)$ 和事件类型得分 $S’(i，t_k)$ 。

2.4 通过类型指引解码的共指解析

类型知情的先行词网络产生mention对的成对共指分数。为了形成共指链，一种简单的方法是使用得分最高的先行词直接连接所有的mentions。不幸的是，这种贪婪解码算法只考虑局部成对一致性，其结果可能不是全局最优的，例如，一个引用链可能包含不同事件类型的提及。

为了解决这一问题，我们提出了一种译码算法，该算法通过类型引导机制来保证共指链的全局一致性。例如，为了解析图1中的链{leaving, leave}， c3考虑了< leaving, leave >的先行词得分，以及两者的类型都是EndPosition提到的类型一致性。

具体来说，考虑到提到 ${m_1，…m_l}$ 文档D中，E3C通过依次识别事件的最佳先行词来构建事件关联链，并进一步考虑类型一致性。对于每一个提及m i，我们首先找到与m i有最大关联得分的提及a i，其中m j出现在m i之前:

然后通过比较 $a_i$ ,$ m_i $的先行词评分$ s(i, a_i) $和$ m_i $的预测类型评分$ s(i, t_i) $来检验$ <a_i, m_i> $的类型一致性。如果$ s(i, a_i) > s(i, t_i) $E3C认为m_i和a_i是类型一致的，并将mention i连接到a i；否则，当$ s(i, a_i) < s(i, t_i) $， c 3 认为 m i 和 a i 类型不一致，并为 m i 启动一个新的事件链，其类型为$ t_i$。

3. 模型学习

这一节描述E3C神经网络是怎么端对端训练的，给定一个训练集，一个文档包括事件mentions、mention类型、共指注释，目标函数：

前者是先行词损失，后者是提议损失。超参数设置为1.

先行词损失

它衡量mention是否与正确的先行词相关联。对于每一个mention m_i，本文识别它的gold先行词集合GOLD (i)，如图3所示：

1)事件链的第一个mention，是事件类型。例如，departing的gold先行词集合是{EndPosition}。

2)对于链中剩余的mention，先行词都是其所有的共指先行词。例如，goodbye的gold先行词集合是{departing, leave}。

3)对于非mention的span，黄金先行词是虚拟先行词ε。

假设GOLD(i)对于文档D的第一提到集合中的每一个m i，前件损失函数是一个边际对数似然函数：

提议mention损失

它衡量了我们的模型是否能够准确地识别事件mention。具体来说，提议损失使用提议网络的二元交叉熵损失函数：

如果y_i=1意味着span i是事件，否则y_i为0

4. 实验

4.4 分析细节

类型导向机制的作用

为了研究类型引导机制在E3C中所起的作用，我们进行了类型精炼表示(-Type-Refined)和类型引导最佳先行词译码(-Type-Guided)的消融实验。类型规则是一种简单的启发式方法，认为所有同一类型的事件提到都是相互共指的。结果如表2所示。

1)类型引导译码对事件引用是有效的。同时考虑类型一致性和先行词得分，c3编码比单纯编码的AVG-F提高8.1%(3.05)。

2)类型精炼表示有助于解决mention多样性问题和远程指代问题。通过将类型信息合并到mention表示中，E3C获得3.1%(1.24)的AVG-F改进。

端到端学习的影响

为了研究端到端学习的影响，我们对 $E^3C$ 进行了三次变种，进行了实验： $E^3C_{Two stage}$ 在两个独立的模型中建模事件提及检测和共指先行词预测，它们具有相同的span嵌入； $E^3C_{w/o Proposal Loss}$ ，去除了proposal mention损失; $E^3C_{Gold Mentions}$ 该模型使用Gold mentions来进行共指解析和类型评分，但是该模型仍然需要预测每个mention的类型。表3给出了三个系统的性能，我们可以发现：

此外，如果使用黄金提及，可以进一步显著提高引用性能，这说明事件检测仍然是事件共指的瓶颈。

预训练模型的作用

4.6 讨论

事件检测瓶颈。

从上述实验中，我们发现事件共指的一个主要瓶颈是事件检测。如表 3 所示，使用黄金提及导致 AVG-F 的巨大改进，从 40.85 到 53.72。此外，即使我们修复了预测事件检测结果中的所有共指链接错误，AVG-F 的增长仍然有限，从 40.85 到 42.80。事件检测具有挑战性，因为：1）事件提及是多样化和模糊的，检测它们需要对上下文的深入理解。 2) 一些事件提及是多标记的，即一个跨度触发多个事件。由于本文没有考虑这个问题，所以遗漏了一些提及。

域适应

我们发现领域适应是事件共指的另一个挑战。表 5 显示了我们的 E3C 模型在不同类型的 KBP 2017 评估数据集上的结果：83 个新闻专线文档——NW，和 84 个论坛主题——DF。这两种类型之间存在显着的性能差距，可能是因为：1）与正式的 NW 文档不同，DF 线程是非正式的，缺乏连贯的话语结构，而本文只使用了10个窗口的大小。 2) 讨论论坛主题中的事件链不仅与内容相关，还与演讲者信息和讨论主题相关。解决这个问题需要深入理解对话上下文。

参数建模

在本文中，我们通过mask注意力机制隐式地利用了参数信息，而没有显式提取参数角色。然而，我们相信通过更有效地建模参数信息可以进一步增强事件共指：1）结合显式参数信息可以有效地捕获事件的语义信息以获得更好的特征表示； 2）论证的共指/兼容性对于决定事件之间的共指关系至关重要。不幸的是，传统的基于参数的端到端管道事件共指方法存在先行词组件的错误传播问题，例如参数提取和实体共指。实体/事件共指的去噪特征组合算法或联合建模可以有效解决参数的错误传播问题。

6. 结论

本文提出了一种最先进的端到端神经网络，用于事件共指解析 E3C 神经网络，它联合建模事件检测和事件共指，并学习直接从原始文本中提取特征。进一步提出了一种类型引导机制来解决提及多样性问题和长距离共指问题，该机制：1）通过类型评分通知共指预测，2）使用类型信息细化提及表示，3）在类型一致性下指导解码 . 实验表明，我们的方法在 KBP 2016 和 KBP 2017 上实现了最先进的性能。在未来的工作中，我们将专注于事件共指的瓶颈，例如事件检测和参数建模。

21《Span-Based Event Coreference Resolution》

《基于span的事件消歧》数据集：KBP2016、KBP2017

3 基线事件消歧模型

在事件关联解析的上下文中，每个span将对应于一个候选事件触发器，而不是实体提及，然后我们基于广度的基线事件关联模型将允许我们共同学习这些触发span 和这些触发span 上的事件关联。

我们的基线模型将文档D作为输入，文档D表示为一个单词标记序列，从中我们提取了所有长度不超过L的句子内可能的span。如上所述，每个这样的跨度对应于一个候选触发器。基线模型同时学习触发器检测和事件关联分辨这两个任务，我们定义如下。

1）触发检测任务的目的是为每个span i分配一个子类型 $y_i$ 。每个 $y_i$ 在子类型目录或None中接受一个值，None表明i不是一个触发器。模型预测i的子类型为 $y_i= argmax_{y_t}s_t(i,y_t)$ ，其中 $s_t$ 是一个评分函数，表示i是 $y_i$ 子类型的可能性。

2）事件关联解析任务旨在为span i赋一个 $y_c$ ，其中 $y_c∈{ 1，. .， i−1，\epsilon}$ 。换句话说，每个 $y_c$ 的值是span i 的先行词的id，先行词可以是前面的一个span或一个虚拟的先行词 $\epsilon$ （如果事件mention i的启动了一个新集群，也就是找不到span j)。我们定义了以下评分函数:

第一项是span i是触发器的得分，第二项是span j是触发器的得分，第三项是span i和span j共指消解的评分，模型预测span i的先行词，，从几何中选一个得分最高的 $y_c$

Model 结构:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IqzsYBIQ-1624870336690)(/Users/daibeiya/Library/Application Support/typora-user-images/image-20210626091543669.png)]

Span表示层

我们将Joshi等人(2019)最先进的实体消歧的版本用于事件消歧。具体来说，我们将输入文档划分为不重叠的区域，每个区域的大小为 $L_d$ 。每个区域中的单词序列作为输入训练序列。然通过SpanBERT-large对单词序列进行编码。最后，我们得到span i 的表示 $g_i$ 设为 $h_{start(i)};h_{end(i)};h_{head(i)};F_i]$ ，其中 $h_{start(i)}$ 和 $h_{end(i)}$ 是跨度的起始标记和结束标记的隐藏向量， $h_{head(i)})$ 是一个基于注意力的头向量， $F_i$ 是一个span宽度特征嵌入。为了保持可计算性，我们首先为每span i计算一个评分 $s_m$ ：

只保留百分之N的spans进行下一步计算。

触发器预测层

对于每个span i都经过过滤器，我们将其表示 $g_i$ 传递给FFNN，它输出维数为T的向量 $ot_i$ ，其中T是可能的事件子类型的数量(包括NONE)。 $ot_i (y)$ 是ot_i的第y个元素，表示i属于事件子类型y的可能性分数：

共指预测层

为了预测事件共指链，首先计算span i 和span j 之间的得分：

式中表示元素级的乘法，gi· gj编码span i和span j之间的相似性， $u_{ij}$ 是编码两个span之间距离的特征嵌入。

我们可以使用方程2和5计算方程1中定义的完整的共参照得分。

span-based模型联合学习事件触发器检测和事件共指解析两个任务；

事件触发器检测的目的是检测span $i$ 指定一个子类型 $y_i$ ，事件共指解析任务旨在为span $i$ 分配一个先行词，然后计算共指得分。模型结构如图所示：

训练

损失函数，是两个任务的组合：

而超参数使用网格搜索优化，以最大化AVG-F。

我们分别对两个任务使用最大间隔损失：

4. Incorporating Consistency Constraints：

为了探索事件检测和事件共指的一致性约束，在baseline模型中加入以下一致性约束：

P1：如果两个span没有相同的事件子类型，则它们不是共指的；

P2：如果一个span的事件子类型为“无”，那么它的先行词必须是虚拟的。

由于在任何情况下都不应该违反这两个条件，所以将其作为硬约束来实施，但在实践中，这些是在有噪声的输出上计算的，所以为了将它们作为软约束来实施，将约束损失乘以一个超参数，从而控制当违反约束时，模型受惩罚程度。

5. 扩展实体消歧的信息

Pipline model

首先，实体引用模型计算给定文档中提到的实体上的实体引用链。然后，第3节中描述的基线事件关联模型将第一步中计算的实体关联链作为输入，并将它们用于事件关联解析。管道模型的结构如图2(b)所示，该模型由两个相互独立学习的网络组成。

实体关联模型分为三层：(1)span表示层，该层学习实体提及对应的span；(2)实体提及预测层，该层将从预定义实体类型库中提取的实体类型分配给每个span，如果该跨度不对应于实体提及，则为None；(3)实体共指层，它计算在其预测实体类型扩展的span上的共指链。

**在事件关联解析过程中如何使用产生的实体关联链？**我们只使用它们在实体关联和事件关联之间创建额外的交叉任务约束。这个约束指定如果两个事件的对应参数不是实体关联的，那么它们就不能是关联的。例如，在我们运行的示例中，攻击者参数ev1和ev3不是实体关联的，如果ev1和ev3被预测为事件关联的，就会违反这个约束。我们将这个约束实现为硬约束。我们在训练和测试期间通过删除任何违反这个约束的候选先行词。

实现这个约束需要计算：(1)确定事件提到的参数，(2)计算它们的语义角色。

我们将这两个任务近似如下：

1）如果从事件ev的触发器可以通过长度不超过3的依赖路径到达实体en，那么我们将实体en作为事件ev的参数；2）我们将en的“语义角色”W.R.T. ev设置为连接它们的依赖路径上的依赖标签序列。依赖关系使用Stanford CoreNLP工具包获得。

Joint model

管道的缺点：实体引用和事件引用是通过跨任务约束进行中介的，这两个任务之间的交互很小的。为了更紧密地耦合这两个任务，我们提出了一个联合学习它们的模型。

比较Pipeline和Joint，最显著的区别在于span表示层。

1）在Pipeline中，实体引用和事件引用是独立学习的，因此两个网络之间不存在参数共享；

2）另一方面，Joint具有典型的多任务学习机制，其中跨度表示层由两个任务共享：实体关联和事件关联。

3）另一个区别在于损失函数。joint作为一个联合模型，还需要在方程(6)的损失函数中加入一个与实体共同引用对应的额外任务损失。我们将实体共同引用的损失与事件共同引用的损失定义类似(见方程(7))。

除了这些不同之外，Joint与Pipeline本质上是相同的。

6. 评估

实验

数据集为：TAC KBP LDC2015E29、E68、E73和E94。共包含新闻专线文章或论坛帖子648个文档，18个子类型的事件提及18739次分布在9955个事件共参照链上，5个类型的实体提及20227次分布在7025个实体共参照链上。我们使用583个训练文档进行模型训练，其余65个用于参数调整。

模型的结果：KBP 2016测试集和KBP 2017测试集。KBP 2016测试集由169个文档组成，其中4155个事件分布在3191个事件关联链上，17005个实体提及分布在6728个实体关联链上。KBP 2017测试集由167个文档组成，其中4375个事件提及分布在2963个事件共参照链上，13860个实体提及分布在5482个实体共参照链上。

AVGF是四种常用的共参照评价指标MUC 、b^3、CEAF_e 和BLANC 的f -scores 的未加权平均值。

结果和讨论

事件共指

这是令人鼓舞但令人惊讶的，不仅是因为在实体/事件共指研究中很少看到 7 点的改进，还因为仅通过应用已成功应用于实体共指的模型来实现改进。

接下来，我们将约束增强基线 (CAB)（第 3 行）与采用实体共指信息的三个事件共指模型进行比较：管道（第 4 行）和联合（第 7 行）。结果在两个数据集上都是一致的。具体来说，（1）两个共指模型都优于 CAB，这表明事件共指模型可以从实体共指信息中受益； (2) Joint 的表现优于 Pipeline。联合模型优于流水线的事实可能并不令人惊讶，因为流水线模型通常容易出现错误传播。

触发检测

触发器检测性能对事件共引用性能有严重影响，因为如果链接正确且触发器被分配了正确的子类型，则事件共引用链接被认为是正确的。表 1 和表 2 中的结果在很大程度上支持了这一观察结果。例如，与其他系统相比，现有技术（第 1 行）获得的较差的事件共指结果可能归因于其较差的触发检测性能。在 KBP 2017 上，模型的触发检测性能不同（Joint 优于 Pipeline；而 Pipeline 优于 Baseline），而在 KBP 2016 上的差异要小得多。总的来说，这些结果提供了暗示性证据，表明触发检测可以从与事件共指。

实体检测

实体检测结果仅适用于那些使用实体共指信息（即管道和联合）的模型。与触发检测性能相比，我们看到模型之间的实体检测性能差异更大。

实体共指

在 KBP 2016 上，Joint 的表现优于 Baseline。在 KBP 2017 上，它们的相对表现不同：Pipeline 优于 Joint。 Joint 在 KBP 2017 上较差的实体共指性能是参数调整的结果：由于参数经过调整以最大化开发数据上的事件共指 AVG-F，因此 Joint 在 KBP 2017 上的可靠事件共指性能是以牺牲实体共指性能为代价的。

7. 误差分析

我们的共指模型造成的精度错误的一个主要来源通常源于它错误地将两个非共指事件提及共享一些共同的论元作为共指。

1）m1 和 m2 描述了崔国庆访问中国的两个事件。然而，m1是m2的子事件，因为m1描述了崔访问工业园区的特定事件，而m2是崔在中国的访问。

2）再以 m3和m4为例：它们描述的是同一个人乔尔·桑塔纳 (Joel Santana) 的事件。虽然 m3 明确提到谁解雇了桑塔纳而 m4 没有，但我们知道它们是不同的事件，因为它们不会同时发生在“前南非国家教练”这句话中。

我们的事件共指模型造成的召回错误的一个主要来源涉及名词事件提及。通常，包含名词事件提及的句子会引入有关该事件的新信息，与之前提及的内容几乎没有重叠。

3）在表 1 中，m5介绍了事件中涉及的关键论点（在这种情况下，他们是参加会议的人），而 m6 则提到了会议的目的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1FbUuiDp-1624870336692)(/Users/daibeiya/Library/Application Support/typora-user-images/image-20210628161140104.png)]

8. 结论

我们将基于span的实体关联模型用于事件关联解析。具体来说，我们首先表明，我们相当直接的调整已经产生了一个基线模型，该模型在2016年和2017年的KBP事件参考数据集上的表现超过了之前的技术水平。然后，我们对这个基线事件关联模型的跨任务一致性约束和实体关联信息的效用进行了探索，表明它们可以有效地用于基于跨度的事件关联解析。

21《A Context-Dependent Gated Module for Incorporating Symbolic Semantics into Event Coreference Resolution》

GitHub：https://github.com/laituan245/eventcoref

《一个上下文相关的门控模块，用于将符号语义合并到事件关联解析中》数据集：KBP2016、ACE2005

摘要

事件关联解析是一个具有广泛应用前景的重要研究问题。尽管最近预处理语言模型取得了显著的成功，我们认为在任务中使用符号特征仍然是非常有益的。然而，由于共同参考分辨率的输入通常来自信息提取管道中的上游组件，因此自动提取的符号特征可能会有噪声并包含错误。此外，根据具体的上下文，有些功能可能比其他功能提供更多信息。基于这些观察结果，我们提出了一种新的上下文相关的门控模块来自适应地控制来自输入符号特征的信息流。结合简单的噪声训练方法，我们的最佳模型在两个数据集上取得了最先进的结果：ACE 2005和KBP 2016。

1 Introduction

文档内事件关联解析是对引用相同现实事件的文本中的事件提及进行聚类的任务(Lu和Ng, 2018)。由于事件提及的触发通常是最清楚地描述事件的单词或短语，几乎所有以前的方法都采用了与事件触发相关的某种形式的特性。为了获得更好的性能，许多方法还需要使用各种额外的符号特性，如事件类型、属性和参数(Chen et al.， 2009;陈和吉，2009;Zhang等人，2015;Sammons等人，2015;Lu和Ng, 2016;Chen和Ng, 2016;Duncan等人，2017)。先前的神经方法(Nguyen et al.， 2016;Choubey和Huang, 2017;Huang等人，2019)也使用非上下文词嵌入，如word2vec (Mikolov等人，2013)或GloVe (Pennington等人，2014)。

随着BERT 和SpanBERT等语言模型最近的显著成功，我们是否可以简单地使用这些模型来进行关联解析，而不依赖于任何其他特性。然而利用符号特征仍然是非常有益的，特别是当它们是干净的和具有互补信息的时候。表1显示了ACE 2005数据集中的一个示例，其中我们的基线SpanBERT模型错误地预测了高亮显示的事件提到是关联的。事件触发器在语义上是相似的，这使得我们的模型很难区分。但是，请注意，在提到事件{head out} ev1时，就好像它是真实发生的一样，因此它的形态属性是：ASSERTED(LDC, 2005)。相反，由于短语“were set to”，我们可以推断事件{leave} ev2实际上没有发生(即，它的情态属性是OTHER)。因此，如果我们的模型利用了额外的符号特征，比如本例中的modality属性，那么它应该能够避免这种错误。

之前有一些方法将上下文嵌入与基于类型或基于参数的信息一起使用。例如，Lu等人(2020)提出了一种新的机制，可以更好地利用事件类型信息进行关联解析。尽管这些方法的性能令人印象深刻，但它们只针对特定类型的附加信息。

eg1. 我们看到这些士兵出发了

eg2. 这些士兵定于一月份离开。

一个使用形态属性来改进事件关联解析的示例。

在本文中，我们提出了一种通用而有效的方法来将广泛的符号特征整合到事件关联解析中。简单地将符号特征与上下文嵌入连接起来并不是最优的，因为这些特征可能会有噪声并包含错误。此外，根据上下文的不同，有些功能可能比其他功能提供更多信息。因此，我们设计了一种新的上下文相关的门控模块来选择性地从符号特征中提取信息。我们的最佳模型在ACE 2005 (Walker et al.， 2006)和KBP 2016 (Mitamura et al.， 2016)数据集上取得了最先进的结果。据我们所知，我们的工作是第一个明确地关注于处理事件关联解析的各种噪声符号特征的工作。

2 方法

2.1 前期

我们主要关注文档内的事件引用解析。我们的模型的输入是一个文档D，由n个tokens和k个(预测的)事件提到 ${m_1, m_2，…， m_k}$ 组成。对于每个 $m_i$ ，我们分别用 $s_i$ 和 $e_i$ 表示其触发器的起始索引和结束索引。我们假设mentions项是根据 $s_i$ 排序的(即，If i < j 则 s_i < s_j)。

我们还假设每个mi有K个(预测的)分类特征 ${ c_i^{(1)}， c_i^{(2)}，…，c_i^{(K)}}$ ，每个 $c_i^{(1)}∈{1,2， . . . ,N_u}$ ，从 $N_u$ 个不同的离散值中选取一个。表2列出了我们在这项工作中考虑的符号特性（（Type, Modality，Polarity，Genericity，Tense(类型，形态，极性，泛型，时态) 事件的四属性，分别表示是确定型/非确定型事件，是主动型/被动型事件，具体事件/普通事件，事件的时态。）

功能及其可能值的定义在ACE和Rich ERE指南中(LDC, 2005;Mitamura等人，2016)。符号特征预测因子的准确率得分也如表2所示。我们使用OneIE (Lin等人，信息抽取2020)来识别事件提及及其子类型。对于其他符号特征，我们训练了一个基于SpanBERT的联合分类模型。

2.2 单-mention encoder

给定文档D，我们的模型首先使用Transformer编码器为每个输入token 形成上下文化的表示(Joshi等人，2020)。设 $X = (X_1，…， X_n)$ 为编码器的输出。然后，对于每个mention的 $m_i$ ，其触发器的表示 $t_i$ 被定义为其token嵌入的平均值：

然后，利用K个可训练嵌入矩阵，将 $m_i$ 的符号特征转化为K个向量${ h_i^{(1)}， h_i^{{(2)}，…，h_i}{(K)}} $。

2.3 双- mention encoder and scorer

给定两个事件mentions $m_i$ 和 $m_j$ ，我们将它们基于触发器对表示定义为：

其中FFNN是一个前馈神经网络从的映射，类似的，计算特征对 ${ h_{ij}^{(1)}， h_{ij}^{(2)}，…，h_{ij}^{(K)}}$ ：

其中FFNN是一个前馈神经网络从的映射。

现在，最直接的方法来构建最后一对表示 $f_{ij}$ ( $m_i$ 和 $m_j$ )是简单地将基于触发器的表示和所有基于特征的表示连接在一起：

然而，这种方法并不总是最优的。首先，由于符号特征是被预测的，它们可能是有噪声的并包含错误。大多数符号特征预测器的性能不完美(表2)。此外，根据具体的上下文，一些特征可能比其他特征更有用。

受门控模块的启发，我们提出了上下文相关的门控模块(CDGM)，该模块使用一种门控机制选择性地从输入符号特征中提取信息(图1) 。在给定两个mention $m_i$ 和 $m_j$ 的条件下，我们用它们的触发词特征向量 $t_{ij}$ 作为主要控制上下文来计算过滤后的表示：:

更细节的：

其中σ为sigmoid函数，FFNN是前馈神经网络从的映射，在高层， $h^{(u)}_{ij}$ 被分解成一个正交向量和一个平行向量，是这两种成分的融合，为了找到最优的混合物，使用门控 $g_{ij}$ 来控制混合物的组成。分解单元定义为：

其中是点积。平行混合物 $p^{(u)}_{ij}$ 是 $h^{(u)}_{ij}$ 在 $t_{ij}$ 上的投影。可以认为它包含的信息已经是$ t_{ij} $的一部分。相反，$ o^{{(u)}_{ij}$与$t_{ij}$正交，因此可以认为它包含新的信息。从直观上看，当原始符号特征向量$h}{(u)}{ij} $非常清晰且具有互补信息时，我们希望利用新信息$ o^{{(u)}_{ij}$（即我们希望$g}{(u)}{ij}$约等于1），反之亦然。

最后，利用CDGMs提取符号特征后， $m_i$ 和 $m_j$ 的最后的表示 $f_ij$ 可以计算如下：

共指得分：

其中前馈神经网络是的映射。

2.4 训练和推断

**训练：**我们使用和(Lee et al.， 2017)相同的损失函数。此外，特征预测器的训练精度通常比它在开发/测试集上的精度要高得多(表2)。如果我们简单地训练我们的模型而不进行任何正则化，我们的CDGM在训练期间很少遇到噪声符号特征。因此，为了鼓励我们的CDGM实际学习提取可靠的信号，我们也提出了一个简单但有效的噪声训练方法。在将一批训练数据传递给模型之前，我们在预测的特征中随机添加噪声。

更具体地说，对于批处理中的每个文档D，我们将遍历D中mention的每个事件的每个符号特征，并考虑为该特征采样一个新值。算法1中描述了该操作(我们使用2.1节中提到的相同的符号)。{ $\epsilon_1,\epsilon_2，···，\epsilon_K$ }是验证集确定的超参数。一般来说，训练与测试的精度之间的偏差越大， $\epsilon$ 结果也就越大。

**推断：**对于每一个预测的mention $m_i$ ，我们的模型会为每一个前面的mention或者假的先行词 $\epsilon$ 分配一个先行词 $a_i$ ， ${\epsilon,m_1, m_2. . . , m_{i−1}}$ ，基本上， $a_i= argmax_{j<i}s(i, j)$ 。假的先行词 $\epsilon$ 有两种可能：

（1）m_i不是真正的事件mention

（2）m_i是事件mention，但不与任何之前的事件共指

此外我们设置 $s(i,\epsilon) = 0$ 。

我们mention-pair编码器的整体架构，它使用cdgm合并符号特性。

3. 实验和结论

数据和实验设置

我们使用 SpanBERT作为 Transformer 编码器。我们将仅使用触发功能的模型称为 [基线]。在基线模型中， $f_{ij}$ 就是 $t_{ij}$ （等式2）。我们将仅使用简单串联策略的模型称为 [Simple]（等式 4），将使用简单串联策略和噪声训练方法的模型称为 [Noise]。

总体结果（基于预测提及）

我们使用 OneIE 来提取事件mention及其类型。其他特征由简单的 Transformer 模型预测。总体而言，我们的完整模型在很大程度上优于基线模型，并且在 KBP 2016 上明显优于最先进的模型。我们的 ACE 2005 分数无法与之前的工作直接比较，如 Peng 等人。 (2016) 进行了 10 倍交叉验证，基本上使用了更多的训练数据。尽管如此，我们最好的模型和最先进的方法之间的分数差异的大小表明了我们方法的有效性。

总体结果（关于真实触发器）

在 ACE 2005 上使用真实触发器和预测的符号特征的总体结果如表 5 所示。我们完整模型的性能与之前中的最先进结果相当。为了更好地分析符号特征的有用性以及我们方法的有效性，我们还使用真实的触发器和真实的符号特征进行了实验（表 6）。首先，当符号特征是干净的时，使用简单的连接策略合并它们已经可以显着提高性能。符号特征包含与 SpanBERT 上下文嵌入中的信息互补的信息。其次，我们还看到，当符号特征干净时，嘈杂的训练方法没有帮助。与其他正则化方法不同，例如 dropout和权重衰减，我们的噪声训练方法的主要作用不是减少传统意义上的过拟合。它的主要功能是帮助 CDGM 学习从嘈杂的特征中提取可靠的信号。

不同符号特征的影响

表 7 显示了在 ACE 2005 数据集上合并不同类型的符号特征的结果。总的来说，我们的方法在所有特征类型上的表现始终优于简单的连接策略。与干净特征相比，更多噪声特征的增益也更大（特征预测精度如表 2 所示）。这表明我们的方法在符号特征嘈杂的情况下特别有用。

与多任务学习的比较

我们还研究了是否可以通过简单地进行多任务训练将符号语义纳入共指解析。我们训练我们的基线模型来联合执行共指解析和符号特征预测。 ACE 2005 的测试 AVG 分数仅为 56.5。相比之下，我们最好的模型达到了 59.76 的 AVG 分数（表 3）。

定性示例

表 8 显示了来自 ACE 2005 数据集的几个示例，这些示例说明了如何使用我们提出的方法合并符号特征可以提高事件会议分辨率的性能。在每个示例中，我们的基线模型错误地预测突出显示的事件提及是指称的。

剩余挑战

先前的研究表明，存在不同类型和程度的事件共指。许多方法（包括我们的）专注于完全严格的共指任务，但其他类型的共指（例如部分共指）仍未得到充分探索。定义了部分事件共指关系的两种核心类型：子事件关系和成员关系。子事件关系形成一个典型的事件序列，而成员关系代表事件集合的实例。我们将解决部分共指任务留给未来的工作。

4. related work

之前的一些文档内事件关联解析方法首先应用提及对模型来计算事件提及之间的成对距离，然后应用聚类算法，如聚类或谱图聚类(Chen et al.， 2009;陈和吉，2009;Chen和Ng, 2014;Nguyen等人，2016;Huang等人，2019)。除了触发器特性之外，这些方法还使用各种符号特性，如事件类型、属性、参数和距离。这些方法不使用BERT和SpanBERT等上下文嵌入(Devlin等，2019;Joshi等人，2020年)。最近，有一些研究将情境嵌入与基于类型或基于论据的信息一起使用(Lu等人，2020;Yu等人，2020年)。这些方法设计的网络或机制只针对一种符号特征。相比之下，我们的作品更具有普遍性，可以有效地应用于广泛的象征性特征。