A Context-Dependent Gated Module for Incorporating Symbolic Semantics into Event Coreference Resolut

Navajo_c

已于 2022-04-08 09:03:04 修改

阅读量1.3k

点赞数 1

分类专栏： IE 文章标签： python nlp

于 2022-03-27 17:02:48 首次发布

本文链接：https://blog.csdn.net/David_B/article/details/123743548

版权

IE 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

标题、作者

在这里插入图片描述

摘要

动机：

共指消解的输入来自于上游任务的信息抽取的输出，自动抽取的符号特征存在噪声和错误
上下文能提供有用信息

主要贡献

上下文相关的门控模型：自适应地控制从符号特征输入的信息
有噪声的训练模型

结论

在ACE2005和KBP2016数据集上实验

导言

现有方法

利用有关触发词的特征信息
利用额外的符号特征，如事件类型、属性、论元等
利用上下文无关的词嵌入
简单地直接拼接特征会引入噪声和误差

文中方法

包含广泛的符号特征的通用、有效的方法
利用上下文相关的门控制模型从符号特征中有选择地抽取信息
使用正则化方法随机的在训练过程中加入噪声

模型

预定义

文档 $D$ 有 $k$ 个事件提及（由预测得出）
每个事件提及 $m_i$ 中触发词的起始索引分别为 $s_i$ 、 $e_i$
每个事件提及 $m_i$ 有 $K$ 个类别特征，每个类别特征 $c_i^{(u)}\in \{1,2,...,N_u\}$
ACE数据集中利用的符号特征：
- 类型、极性、形态、指属、时态
KBP数据集利用的符号特征：
- 类型、现实含义
使用OneIE识别事件提及（mentions）及其子类型
使用基于SpanBERT的联合分类模型提取其他符号特征

Single-Mentions Encoder（单个事件提及的编码器）

给定一个文档 $D$ ，先使用 Transformer 编码器对输入的每个tokens形成上下文的表示
$X=(x_1,...,x_n), x_i\in \mathbb{R}^d$
对于每个事件提及 $m_i$ ，它的触发词的表达 $t_i$ 定义为触发词的每个token的平均值：
$t_i=\sum_{j=s_i}^{e_i}\dfrac{x_j}{e_i-s_i+1}$
另外，使用 $K$ 个可训练的embedding矩阵，将每个事件提及 $m_i$ 的 $K$ 符号特征转为 $K$ 个向量

${h_i^{(1)},h_i^{(2)},...,h_i^{(K)}\}$

Mention-Pair Encoder and Scorer（事件提及对的编码和得分计算）

给定两个事件提及 $m_i$ 和 $m_j$ ，定义它们的触发词对 $t_{ij}$ 的表示为：
$t_{ij}=FFNN_t([t_i,t_j,t_i \circ t_j])$
$FFNN_t$ 是一个前向网络， $t_i\in \mathbb{R}^d$ ， $t_{ij}\in \mathbb{R}^p$ ， $\circ$ 表示按元素相乘
定义特征对的表示 ${h_{ij}^{(1)},h_{ij}^{(2)},...,h_{ij}^{(K)}\}$ （对应特征的组合）
$h_{ij}^{(u)}=FFNN_u([h_{i}^{(u)},h_{j}^{(u)},h_{i}^{(u)} \circ h_{j}^{(u)}])$
$FFNN_u$ 是一个前向网络， $h_i^{(u)}\in \mathbb{R}^l$ ， $h_{ij}^{(u)}\in \mathbb{R}^p$
（非最优的方法）将事件提及 $m_i$ 和 $m_j$ 对的表示为触发词对和特征对的拼接：
$f_{ij}=[t_{ij}, h_{ij}^{(1)}, h_{ij}^{(2)},...,h_{ij}^{(K)}]$
直接利用符号特征易引入噪声和误差，于是文中提出新的方法 CDGM

上下文相关的门控模型 CDGM

在这里插入图片描述

给定两个事件提及 $m_i$ 和 $m_j$ ，利用得到的触发词特征 $t_{ij}$ 去计算过滤后的特征对表示
$\bar{h}_{ij}^{(u)}=CDGM^{(u)}(t_{ij},h_{ij}^{(u)})$
其他门控机制，对 $u\in\{1,2,...,K\}$ ：

$g_{ij}(u)=\sigma(FFNN_g^{(u)}([t_{ij}, h_{ij}^{(u)}]))$
$o_{ij}^{(u)}, p_{ij}^{(u)}=DECOMPOSE(t_{ij},h_{ij}^{(u)})$
- $p_{ij}^{(u)}=\dfrac{h_{ij}^{(u)}\cdot t_{ij}}{t_{ij}\cdot t_{ij}}t_{ij}$
- $p_{ij}^{(u)}$ 是 $h_{ij}^{(u)}$ 在 $t_{ij}$ 上的投影，包含 $t_{ij}$ 的信息
  $\\[3pt]$
- $o_{ij}^{(u)}=h_{ij}^{(u)}-p_{ij}^{(u)}$
- $o_{ij}^{(u)}$ 正交于 $h_{ij}^{(u)}$ ，相当于去除一部分信息
$\bar{h}_{ij}^{(u)}=g_{ij}^{(u)}\circ o_{ij}^{(u)}+(1-g_{ij}^{(u)})\circ p_{ij}^{(u)}$

$FFNN_g^{(u)}$ 将 $\mathbb{R}^{2\times p}$ 映射为 $\mathbb{R}^{p}$ ，经过CDGMs的蒸馏后得到事件提及对 $m_i$ 和 $m_j$ 的最终表示为：
$f_{ij}=[t_{ij}, \bar{h}_{ij}^{(1)}, \bar{h}_{ij}^{(2)}, ..., \bar{h}_{ij}^{(K)}]$
事件提及 $m_i$ 和 $m_j$ 的共指得分 $s (i, j)$ 为：
$s(i,j)=FFNN_a(f_{ij})$
$FFNN_a$ 将 $\mathbb{R}^{(K+1)\times p}$ 映射为 $\mathbb{R}$

Training and Inference

训练过程

特征预测器的训练精度通常比它在开发/测试集上的精度高得多。如果简单地训练模型而不进行任何正则化，CDGM在训练过程中很少遇到噪声符号特征。因此，为了让CDGM真正学会提取可靠的信号，文中还提出了一种简单但有效的噪声训练方法（具体操作见算法）。

噪声加入算法

输入： 文档 $D$
超参数： $\{\epsilon_1, \epsilon_2, ..., \epsilon_K\}$
for $i = 1 . . . k$ do
- for $u = 1 . . . K$ do
  - with prob. $\epsilon_u$ , replace $c_i^{(u)}$ by
  - $\hat{c}_i^{(u)}\sim Uniform(N_u)$
- end
end

噪声训练方法不是为了减少传统意义上的过拟合。它的主要功能是帮助CDGM学会从噪声特征中提取可靠的信号

推理过程

给每个事件提及 $m_i$ 分配一个先例 $a_i$ ，这个先例来自于 $m_i$ 之前抽取的事件提及或一个假的事件提及
在这里插入图片描述

Navajo_c

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
A Context-Dependent Gated Module for Incorporating Symbolic Semantics into Event Coreference Resolut

标题、作者摘要动机：共指消解的输入来自于上游任务的信息抽取的输出，自动抽取的符号特征存在噪声和错误上下文能提供有用信息主要贡献上下文相关的门控模型：自适应地控制从符号特征输入的信息有噪声的训练模型结论在ACE2005和KBP2016数据集上取得不错的结果导言现有方法利用有关触发词的特征信息利用额外的符号特征，如事件类型、属性、论元等利用上下文无关的词嵌入简单地直接拼接特征会引入噪声和误差文中方法包含广泛的符号特征的通用、有效的方法利用上下文相关的门控制模型
复制链接

扫一扫