Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Ex

最新推荐文章于 2023-03-08 11:00:22 发布

comeonfly666

最新推荐文章于 2023-03-08 11:00:22 发布

阅读量682

点赞数

分类专栏：论文阅读笔记文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/comeonfly666/article/details/120373249

版权

论文阅读笔记专栏收录该内容

22 篇文章 3 订阅

订阅专栏

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction

Purpose
Approach

Purpose

实体作为关系抽取的基本要素，具有特定的结构。本文中作者将其表述为提及对之间的独特依赖关系，并提出了SSAN（结构化自注意力网络）模型，将这些结构依赖合并到标准的自注意力机制中，并贯穿整个编码阶段。具体来说，在每个自注意力块内部设置了两个可选择的转换模块，以产生注意力偏置。

Approach

Entity Structure

实体结构描述实体在文档中的分布以及它们之间的依赖关系，考虑以下两种结构：

（1）共现（Co-occurence）结构：两个提及是否在同一句子中。

（2）共指（Coreference）结构：两个提及是否指向同一实体。

请添加图片描述

intra表示两个提及在同一句内，inter表示两个提及在不同句间；

coref表示两个提及指向同一实体，relate表示两个提及可能存在关联。

将句内实体提及与非实体词之间的依赖关系表示为intraNE，对句间的非实体词表示为NA。

整个结构形成了以实体为中心的邻接矩阵，元素包含 $T=\{intra，inter，coref，relate，intraNE，NA\}$

SSAN

SSAN继承了Transformer编码器的结构，包括前馈网络，残差连接网络，归一化层。作者提出了结构化自注意力机制，包括两种可选择的转换模块。

给定输入序列 $x=(x_1,x_2,...,x_n)$ ，引入 $S=\{s_{ij}\}$ ， $s_{ij} \in T$ 表示 $x_i$ 到 $x_j$ 的依赖关系。将依赖从mention-level拓展到token-level。对于包含多词的提及，内部词对之间为 $i n t r a + c o r e f$ 的关系。

在每一层中，输入向量 $x_i^l$ 首先被映射为：

$q_i^l=x_i^lW_l^Q$

$k_i^l=x_i^lW_l^K$

$v_i^l=x_i^lW_l^V$

基于这些输入和实体结构 $S$ 计算非结构化的注意力分数和结构化的注意力偏差，并将其聚合引导最终的自注意力。

非结构化的注意力分数：

$e_{ij}^l=\frac{q_i^l{k_j^l}^T}{\sqrt{d}}$

使用另外一个转换模块，为基于上下文query / key表示的结构化依赖建模，调节从 $x_i$ 到 $x_j$ 的注意力流。：

$\widetilde e_{ij}^l=e_{ij}^l+\frac{transformation(q_i^l,k_j^l,s_{ij})}{\sqrt d}$

计算 $x_i^j$ 的上下文表示：

$\boldsymbol{z}_{i}^{l+1}=\sum_{j=1}^{n} \frac{\exp \tilde{e}_{i j}^{l}}{\sum_{k=1}^{n} \exp \tilde{e}_{i k}^{l}} \boldsymbol{v}_{j}^{l}$

SSAN的结构如图2所示。

请添加图片描述

Transformation Module

为了将离散结构的 $s_{ij}$ 融合到端到端的可训练模型中，作者用特定的参数实例化每个 $s_{ij}$ 作为神经网络层，对这些层提出了两种可选择的设计：Biaffine Transformation和Decomposed Linear Transformation。

$bias_{ij}^l = Biaffine(s_{ij},q_i^l,k_j^l)$

$bias_{ij}^l=Decomp(s_{ij},q_i^l,k_j^l)$

Biaffine Transformation

$s_{i j}^{l}=\boldsymbol{q}_{i}^{l} \boldsymbol{A}_{l, s_{i j}} \boldsymbol{k}_{j}^{l^{T}}+b_{l, s_{i j}}$

这里将 $s_{ij}$ 参数化为神经网络层 $A_{l,s_{ij}} \in R^{d_{out}\times1\times d_{out}}$ ，同时处理query和key向量，将其映射为一维的偏差。

Decomposed Linear Transformation

$s_{i j}^{l}=\boldsymbol{q}_{i}^{l} \boldsymbol{K}_{l, s_{i j}}^{T}+\boldsymbol{Q}_{l, s_{i j}} \boldsymbol{k}_{j}^{l^{T}}+b_{l, s_{i j}}$

在query和key向量上分别引入偏差。

SSAN for Relation Extraction

编码完成之后，通过平均池化为每个目标实体构建一个固定维度的表示 $e_i$ ，接着对每个实体对计算关系 $r$ 的可能性。

$ P_e(e_s,e_o)=sigmoid(e_s W_r e_o)$

模型使用交叉熵损失：

$L=\sum_{<s, o>} \sum_{r} CrossEntropy \left(P_{r}\left(\boldsymbol{e}_{s}, \boldsymbol{e}_{o}\right), \bar{y}_{r}\left(\boldsymbol{e}_{s}, \boldsymbol{e}_{o}\right)\right)$

$\bar y$ 表示目标标签。

comeonfly666

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Ex

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation ExtractionPurposeApproachEntity StructureSSANTransformation ModuleSSAN for Relation ExtractionPurpose实体作为关系抽取的基本要素，具有特定的结构。本文中作者将其表述为提及对之间的独特依赖关系，并提出了SSAN（结
复制链接

扫一扫