Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Ex

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction

Purpose

实体作为关系抽取的基本要素,具有特定的结构。本文中作者将其表述为提及对之间的独特依赖关系,并提出了SSAN(结构化自注意力网络)模型,将这些结构依赖合并到标准的自注意力机制中,并贯穿整个编码阶段。具体来说,在每个自注意力块内部设置了两个可选择的转换模块,以产生注意力偏置。

Approach

Entity Structure

实体结构描述实体在文档中的分布以及它们之间的依赖关系,考虑以下两种结构:

(1)共现(Co-occurence)结构:两个提及是否在同一句子中。

(2)共指(Coreference)结构:两个提及是否指向同一实体。

请添加图片描述

intra表示两个提及在同一句内,inter表示两个提及在不同句间;

coref表示两个提及指向同一实体,relate表示两个提及可能存在关联。

将句内实体提及与非实体词之间的依赖关系表示为intraNE,对句间的非实体词表示为NA。

整个结构形成了以实体为中心的邻接矩阵,元素包含 T = { i n t r a , i n t e r , c o r e f , r e l a t e , i n t r a N E , N A } T=\{intra,inter,coref,relate,intraNE,NA\} T={intraintercorefrelateintraNENA}

SSAN

SSAN继承了Transformer编码器的结构,包括前馈网络,残差连接网络,归一化层。作者提出了结构化自注意力机制,包括两种可选择的转换模块。

给定输入序列 x = ( x 1 , x 2 , . . . , x n ) x=(x_1,x_2,...,x_n) x=(x1,x2,...,xn),引入 S = { s i j } S=\{s_{ij}\} S={sij} s i j ∈ T s_{ij} \in T sijT表示 x i x_i xi x j x_j xj 的依赖关系。将依赖从mention-level拓展到token-level。对于包含多词的提及,内部词对之间为 i n t r a + c o r e f intra+coref intra+coref的关系。

在每一层中,输入向量 x i l x_i^l xil首先被映射为:

q i l = x i l W l Q q_i^l=x_i^lW_l^Q qil=xilWlQ

k i l = x i l W l K k_i^l=x_i^lW_l^K kil=xilWlK

v i l = x i l W l V v_i^l=x_i^lW_l^V vil=xilWlV

基于这些输入和实体结构 S S S 计算非结构化的注意力分数和结构化的注意力偏差,并将其聚合引导最终的自注意力。

非结构化的注意力分数:

e i j l = q i l k j l T d e_{ij}^l=\frac{q_i^l{k_j^l}^T}{\sqrt{d}} eijl=d qilkjlT

使用另外一个转换模块,为基于上下文query / key表示的结构化依赖建模,调节从 x i x_i xi x j x_j xj 的注意力流。:

e ~ i j l = e i j l + t r a n s f o r m a t i o n ( q i l , k j l , s i j ) d \widetilde e_{ij}^l=e_{ij}^l+\frac{transformation(q_i^l,k_j^l,s_{ij})}{\sqrt d} e ijl=eijl+d transformation(qil,kjl,sij)

计算 x i j x_i^j xij 的上下文表示:

z i l + 1 = ∑ j = 1 n exp ⁡ e ~ i j l ∑ k = 1 n exp ⁡ e ~ i k l v j l \boldsymbol{z}_{i}^{l+1}=\sum_{j=1}^{n} \frac{\exp \tilde{e}_{i j}^{l}}{\sum_{k=1}^{n} \exp \tilde{e}_{i k}^{l}} \boldsymbol{v}_{j}^{l} zil+1=j=1nk=1nexpe~iklexpe~ijlvjl

SSAN的结构如图2所示。

请添加图片描述

Transformation Module

为了将离散结构的 s i j s_{ij} sij 融合到端到端的可训练模型中,作者用特定的参数实例化每个 s i j s_{ij} sij 作为神经网络层,对这些层提出了两种可选择的设计:Biaffine Transformation和Decomposed Linear Transformation。

b i a s i j l = B i a f f i n e ( s i j , q i l , k j l ) bias_{ij}^l = Biaffine(s_{ij},q_i^l,k_j^l) biasijl=Biaffine(sij,qil,kjl)

or

b i a s i j l = D e c o m p ( s i j , q i l , k j l ) bias_{ij}^l=Decomp(s_{ij},q_i^l,k_j^l) biasijl=Decomp(sij,qil,kjl)

Biaffine Transformation

b i a s i j l = q i l A l , s i j k j l T + b l , s i j b i a s_{i j}^{l}=\boldsymbol{q}_{i}^{l} \boldsymbol{A}_{l, s_{i j}} \boldsymbol{k}_{j}^{l^{T}}+b_{l, s_{i j}} biasijl=qilAl,sijkjlT+bl,sij

这里将 s i j s_{ij} sij 参数化为神经网络层 A l , s i j ∈ R d o u t × 1 × d o u t A_{l,s_{ij}} \in R^{d_{out}\times1\times d_{out}} Al,sijRdout×1×dout,同时处理query和key向量,将其映射为一维的偏差。

Decomposed Linear Transformation

b i a s i j l = q i l K l , s i j T + Q l , s i j k j l T + b l , s i j b i a s_{i j}^{l}=\boldsymbol{q}_{i}^{l} \boldsymbol{K}_{l, s_{i j}}^{T}+\boldsymbol{Q}_{l, s_{i j}} \boldsymbol{k}_{j}^{l^{T}}+b_{l, s_{i j}} biasijl=qilKl,sijT+Ql,sijkjlT+bl,sij

在query和key向量上分别引入偏差。

SSAN for Relation Extraction

编码完成之后,通过平均池化为每个目标实体构建一个固定维度的表示 e i e_i ei ,接着对每个实体对计算关系 r r r 的可能性。

$ P_e(e_s,e_o)=sigmoid(e_s W_r e_o)$

模型使用交叉熵损失:

L = ∑ < s , o > ∑ r C r o s s E n t r o p y ( P r ( e s , e o ) , y ˉ r ( e s , e o ) ) L=\sum_{<s, o>} \sum_{r} CrossEntropy \left(P_{r}\left(\boldsymbol{e}_{s}, \boldsymbol{e}_{o}\right), \bar{y}_{r}\left(\boldsymbol{e}_{s}, \boldsymbol{e}_{o}\right)\right) L=<s,o>rCrossEntropy(Pr(es,eo),yˉr(es,eo))

y ˉ \bar y yˉ 表示目标标签。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值