Relation Extraction相关论文阅读笔记1

最新推荐文章于 2022-09-21 17:06:49 发布

lanyu_01

最新推荐文章于 2022-09-21 17:06:49 发布

阅读量429

点赞数

分类专栏：深度学习—自然语言处理文章标签：深度学习关系抽取 SSAN DocRED 自然语言处理

本文链接：https://blog.csdn.net/lanyu_01/article/details/118548186

版权

深度学习—自然语言处理专栏收录该内容

4 篇文章 3 订阅

订阅专栏

DocRED (Document-Level Relation Extraction Dataset)：是关系抽取领域比较常见的数据集，最近几年关系抽取领域在该数据集上时有顶会级别的文章出来，本文针对该数据集相关的文章，总结了这些论文中的创新点。

论文标题： Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction

文章目录

1、Entity Structure

本文重点关注了关系抽取的实体对之间的依赖关系，将实体之间的依赖关系作为关系抽取的额为辅助特征，

在这里插入图片描述

如Figure 1所示是DocRED数据集的其中一个样本，其描述了文档级（多段文本）的关系抽取任务中，不同实体之间存在的依赖关系，这些实体之间的依赖性指示，为关系抽取任务提供了有效的先验信息。论文作者提出了两种实体结构，包括“共指关系结构”和“共现关系结构”：

1.1 Co-occurrence Structure: 表示两个提及mentions是否在同一个句子中 (如 “Coming Down Again” 和 “the rolling stones”)

1.2 Coreference Structure: 表示两个提及mentions是否指向同一个实体（如 “it" 和 ”Coming Down Again“）

那么任何实体之间的依赖关系可以用以下表格中的四种类型归纳：

在这里插入图片描述

其中,

intra+coref：表示实体对存在于同一个句子中，并且二者之间有共指关系；

intra+relate：表示实体对存在于同一个句子内，但二者并没有指代关系；

inter+coref：表示实体对具有跨句子的指代关系；

inter+relate：表示实体对是跨句子的，但并没有指代关系；

另外除了实体提及之间的依赖关系外，该论文考虑了实体提及与其句内非实体词之间的另一种依赖关系，将其定义为intraNE; 而对于跨句的提及mentions，则不考虑实体与非实体之间是否存在依赖关系，而是将其统一归类为类型NA。

那么整个文本中任意两个词之间的依赖关系都可有这6种关系中的一种来归纳，假定有输入词序列 $x = (x_1, x_2, ..., x_n)$ ，则 $x_i$ 和 $x_j$ 之间的依赖关系可以表示为 $S={s_{ij}}$ ，其中
$s_{ij} \in \{intra+coref, intra+relate, inter+coref, inter+relate, intraNE, NA\}$

2、SSAN（Structured Self-Attention Network）

在这里插入图片描述

如图2所示，论文提出一种基于Transformer的encoder编码器结构的SSAN网络架构，将Entity Structure 作为一种辅助额外特征加入到Self-Attention的计算过程中，我们知道，普通的self-attention的计算过程是，在每一层，输入表示 ${x^i}_l \in R^{d_{in}}$ 最初被映射为query, key , value 向量：

在这里插入图片描述

其中 ${W_l}^Q, {W_l}^K, {W_l}^V \in R^{d_{in}\times d_{out}}$ , 那么未加entity structure 的普通 self-attention的 attention score 可以表示为：

在这里插入图片描述

那么如何引入实体提及的依赖关系特征 $S$ 呢，如图2所示，该论文使用了一个额外的模块Transformation来建模基于 structral dependency 结构依赖的self-attention，其attention score 的计算过程更改为：

在这里插入图片描述

其中 ${z_i}^{l+1} \in R^{d_{out}}$ 是 ${x_i}^l$ 的更新值。值得注意的是，本文提出了两种不同的Transformation结构，并且在实验部分就其性能做了详细的对比。这两种Transformation结构分别是Biaffine Transformation 和 Decomposed Linear Transformation。

2.1 Transformation Module

论文将 $transformation({q_i}^l, {k_j}^l, s_{ij})$ 定义为attention scores计算过程中的一个偏置项 ${bias_{ij}}^l$ , 并给出两个可选项，即：

在这里插入图片描述

第一种是Biaffine Transformation，将偏置项 ${bias_{ij}}^l$ 的计算定义为：

在这里插入图片描述

其中 $A_{l,s_{ij}} \in R^{d_{out} \times 1 \times d_{out}}$ 是参数化依赖关系 $s_{ij}$ 的可训练神经网络层， $b_{l, s_{ij}}$ 为独立于上下文的依赖关系 $s_{ij}$ 的先验偏差。

第二种结构是 Decomposed Linear Transformation，将偏置项 ${bias_{ij}}^l$ 的计算定义为：

在这里插入图片描述

同样， $K_{l, s_{ij}}^T, Q_{l, s_{ij}}^T \in R^d$ 也是可用于训练的神经网络层，论文作者认为，公式（7）中三个子项分别可以解释如下：

1）第一项表示取决于query 的 token表示的偏差bias;

2）第二项表示取决于key 的 token表示的偏差bias;

3）第三项仍然是先验偏差。

经过以上表述，我们可以总结 strucre self-Attention的 attention scores的计算方式为：

在这里插入图片描述

3、SSAN for Relation Extraction

SSAN模型将文档级的文本作为输入，并在整个编码阶段内在 entity structure的指导下构建上下文表示。在编码阶段之后，通过平均池化的操作为每个目标实体构建一个固定维度的表示，即 $e_i \in R^{d_e}$ , 那么对于每个实体对，我们可以根据预先设定好的关系 schema计算其在某个关系上的概率为：

在这里插入图片描述

其中 $W_r \in R^{d_e \times d_e}$ , 那么整个模型可以利用交叉熵作为损失函数，

在这里插入图片描述

其中， $\bar{y}$ 是 target label, 假定有N个实体和M中关系，那么公式（9）必须得计算 $N\times N \times M$ 次来给出所有可能的预测结果。

注：后面实验部分就不做详细介绍了，读者可以自己参考论文理解即可。

3.1 Experiments and Results

在这里插入图片描述

3.2 烧蚀实验

在这里插入图片描述

原文链接：这里

lanyu_01

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Relation Extraction相关论文阅读笔记1

文章目录第（一）篇：[Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction](https://arxiv.org/pdf/2102.10249v1.pdf)**1、Entity Structure**2、SSAN（Structured Self-Attention Network）2.1 Transformation Module3、SSAN f
复制链接

扫一扫