【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction

1. 问题

  • 句间关系
    • 很多
    • 约等于文档级关系抽取
  • 文档级关系抽取
    • 句子间关系多
      • 生物医药领域尤其多
    • 需求/困难
      • 整合同一文档不同句子间的信息
      • 处理句间实体复杂的交互

2.相关工作

  • 文档级别关系抽取

    • 结论:
      • 实体mention之间的交互促进推理过程(文档级关系抽取中)
        • 因而使用MIL
    • MIL
      • Verge2018,Jia2019
      • 缺点:
        * 无法捕捉丰富的非局部交互
    • 使用结构信息获取更好的推理
      • 优点:可以捕捉到非局部依赖
      • 整合不同句子的信息
      • 构建静态的文档级别图
        • 来源:非结构化文本
        • 依赖:规则和共指消解
          • 语义信息
          • co-references
          • heuristics:启发式
        • eg
          • Peng2017:构建依赖图:句间,多元实体
          • Sahu,2019:用共指消解扩展了Peng的图,构建了文档级别的图
          • Christopoulou,2019利用结构信息基于一组启发式构建一个异构图,并使用一个特定于边的模型
  • 句子内关系抽取

  • 句子间关系抽取

    • Peng:句间关系多,尤其是生物医药领域
    • 生物医药领域
      • l (Quirk and Poon, 2017;
      • Gupta et al., 2018;
      • Song et al., 2019)

3.本文方法

  • 本文模型:LSR
    • 构建隐式文档级别图
      • 自动的
      • 目的:加强句子间的关系推理
        • 捕捉实体间的非局部交互
      • 构建:
        • 不依赖于规则和共指消解
        • 将图结构视作隐式的变量,并以端到端的形式引入它
        • 基于:结构化的attention
        • 使用:矩阵树理论
        • 可以:生成一个任务特定的依赖结构
      • 进一步:迭代的细化策略:
        • 目的:使得模型能够增量地聚合多条推理的相关信息
        • 做到:基于上一次迭代,动态第构建隐式结构
    • 组件
      • node constructor
        • encoder:文档中的每个句子编码表示-上下文的表示
        • node:最短依赖路径的mention和tokens的向量表示作为node
      • dynamic reasoner
        • 生成结构:基于被提取的节点生成文档级结构
        • 更新node表示:
          • 基于隐式结构上的信息传递
          • 迭代细化
      • classifier
        • 分类:节点最后的表达被用于计算分类的分数

3.1 Node constructor

在这里插入图片描述

  • encoder:文档中的每个句子编码表示
  • node:最短依赖路径的mention和tokens的向量表示作为node
    • mention node
    • entity node
    • meta dependency paths node(MDP)
      • 所有mentions最短依赖路径的集合
      • token–>node

3.1.1 context encoding

  • 文档d,文档内句子 d i d_i di
  • 编码器:LSTM(BiLSTM)/Bert
    • BiLSTM
      • h j i → = L S T M l ( h j + 1 i ← , γ j i ) \overrightarrow{h_j^i}=LSTM_l(\overleftarrow{h_{j+1}^i},\gamma_j^i) hji =LSTMl(hj+1i ,γji)
      • h j i ← = L S T M l ( h j − 1 i → , γ j i ) \overleftarrow{h_j^i}=LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i) hji =LSTMl(hj1i ,γji)
      • j-di中的第j个token
      • γ : w o r d e m b e d d i n g \gamma:word embedding γ:wordembedding
      • h j i = [ h j i ← ; h j i → ] h_j^i=[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}] hji=[hji ;hji ]

3.1.2 Node Extraction

  • node:最短依赖路径的mention和tokens的向量表示作为node
    • mention node
    • entity node
      • mentions的平均
    • meta dependency paths node(MDP)
      • 所有mentions最短依赖路径的集合
      • token–>node
  • 构建图
    • Sahu:使用一个句子的依赖树中的所有节点
    • Christopoulou:通过对句子的所有标记求平均来构建一个句子级别的节点
    • 或者:使用mention之间的最短依赖路径上的tokens
      • 这个广泛用于句子级关系抽取,因为他可以有效使用相关信息,忽视无关信息

3.2 Dynamic Reasoner

  • structure induction
    • 学习隐式的文档级图结构
  • multi-hop reasoning
    • 在图上推理
    • 更新节点表示(基于信息传递)
  • 迭代
    • N blocks
    • 为了迭代细化隐式的文档级图,为了更好的推理

3.2.1 Structure Induction

  • 不依赖于规则和共指消解
  • 将图结构视作隐式的变量,并以端到端的形式引入它
  • 基于:结构化的attention
  • 公式
    • node: u i , u j u_i,u_j ui,uj上下文表示
    • pair-wise unnormalized attention score
      • s i j = ( t a n h ( W p u i ) ) T W b ( t a n h ( W c u j ) ) s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j)) sij=(tanh(Wpui))TWb(tanh(Wcuj))
        • 2个ff
        • 1个bilinear transformation
      • root score s i r = W r u i s_i^r=W_ru_i sir=Wrui–第i个节点被选作root的概率
      • 边的权重 P i j = { 0 if i=j e x p ( s i j ) otherwise P_{ij}= \begin{cases} 0& \text{if i=j}\\ exp(s_{ij})& \text{otherwise} \end{cases} Pij={0exp(sij)if i=jotherwise
      • 拉普拉斯矩阵
        • L i j = { Σ i ′ = 1 n P i ′ j if i=j − P i j o t h e r w i s e L_{ij}=\begin{cases} \Sigma_{i'=1}^nP_{i'j} & \text{if i=j}\\ -P_{ij}&otherwise \end{cases} Lij={Σi=1nPijPijif i=jotherwise
        • variant: L i j ^ = { e x p ( s i r ) if i=1 L i j if i>1 \hat{L_{ij}}=\begin{cases} exp(s_i^r)& \text{if i=1}\\ L_{ij}& \text{if i>1} \end{cases} Lij^={exp(sir)Lijif i=1if i>1
    • marinal probability of the dependency edge:
      • A i j = ( 1 − δ 1 , j ) P i j [ L − 1 ^ ] i j − ( 1 − δ i , 1 ) P i j [ L − 1 ^ ] j i A_{ij}=(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji} Aij=(1δ1,j)Pij[L1^]ij(1δi,1)Pij[L1^]ji
      • 输出给下一组件

3.2.2 Multi-hop Reasoning

  • GCN
    • dense connection
      • 捕捉到更多结构信息
      • 帮助训练更深的网络
        • –获取更丰富的局部和非局部的信息
    • u i l = R e l u ( Σ j = 1 n A i j W l u i l − 1 + b l ) u_i^l=Relu(\Sigma_{j=1}^nA_{ij}W^lu_i^{l-1}+b^l) uil=Relu(Σj=1nAijWluil1+bl)

3.2.3 Iterative Refinement

  • structured attention诱导的图结构不足
    • 相对较浅
    • 无法建模复杂的依赖
  • 解决:在更新后的表示上细化图
    • 堆叠N个动态reasoner
      • 诱导N次图
      • 早期:更多的是相邻的信息
      • 迭代多了之后,结构获得了更丰富的非局部信息的交互,因而诱导模块能够生成包含更多信息的结构

3.3 分类器

P ( r ∣ e i , e j ) = σ ( e i T W e e j + b e ) r P(r|e_i,e_j)=\sigma(e_i^TW_ee_j+b_e)_r P(rei,ej)=σ(eiTWeej+be)r

4.结果

  • 数据集:
    • DocRED
      • F1:59.05\
    • CDR
    • GDA
  • DocRED结论
    • 该模型可以更准确地发现句间关系
      • 静态的基于文档图的模型不能够捕捉到复杂的交互
      • LSR比动态的基于局部attention的模型能够得到更多信息的文档级结构,获得更好的推理
    • 直接编码整个文档的模型不能够捕捉到句间关系
    • 好于Bert:捕捉到了长期依赖,而没有使用上下文的模型
  • CDR
    • LSR 打不过:
      • Spacy在生物领域很弱,所以不行
    • 简化的LSR:去除MDP,使用全连接图
      • 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
        • 本文要是用了的话他也行(他自己说的)
  • GDA:
    • Christopoulou2019全连接图的变体:他的句间关系好于句内关系,因为他忽略了不同句子间的差异(当一个句子处理了)

4.6.1 Latent Structure Matter的有效性

  • 相同block num下,效果最好,证明了有效

4.6.2 细化

  • 第二次迭代时(2个block)最好,所以细化有效,但是太多次就会过拟合。

4.7 Ablation Study

  • Structure Induction
    • 去掉这个性能下降最多,且都是句间关系抽取性能下降的结果
    • 隐式结构有用

4.8 Case Study

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值