1. 问题
- 句间关系
- 很多
- 约等于文档级关系抽取
- 文档级关系抽取
- 句子间关系多
- 生物医药领域尤其多
- 需求/困难
- 整合同一文档不同句子间的信息
- 处理句间实体复杂的交互
- 句子间关系多
2.相关工作
-
文档级别关系抽取
- 结论:
- 实体mention之间的交互促进推理过程(文档级关系抽取中)
- 因而使用MIL
- 实体mention之间的交互促进推理过程(文档级关系抽取中)
- MIL
- Verge2018,Jia2019
- 缺点:
* 无法捕捉丰富的非局部交互
- 使用结构信息获取更好的推理
- 优点:可以捕捉到非局部依赖
- 整合不同句子的信息
- 构建静态的文档级别图
- 来源:非结构化文本
- 依赖:规则和共指消解
- 语义信息
- co-references
- heuristics:启发式
- eg
- Peng2017:构建依赖图:句间,多元实体
- Sahu,2019:用共指消解扩展了Peng的图,构建了文档级别的图
- Christopoulou,2019利用结构信息基于一组启发式构建一个异构图,并使用一个特定于边的模型
- 结论:
-
句子内关系抽取
-
句子间关系抽取
- Peng:句间关系多,尤其是生物医药领域
- 生物医药领域
- l (Quirk and Poon, 2017;
- Gupta et al., 2018;
- Song et al., 2019)
3.本文方法
- 本文模型:LSR
- 构建隐式文档级别图
- 自动的
- 目的:加强句子间的关系推理
- 捕捉实体间的非局部交互
- 构建:
- 不依赖于规则和共指消解
- 将图结构视作隐式的变量,并以端到端的形式引入它
- 基于:结构化的attention
- 使用:矩阵树理论
- 可以:生成一个任务特定的依赖结构
- 进一步:迭代的细化策略:
- 目的:使得模型能够增量地聚合多条推理的相关信息
- 做到:基于上一次迭代,动态第构建隐式结构
- 组件
- node constructor
- encoder:文档中的每个句子编码表示-上下文的表示
- node:最短依赖路径的mention和tokens的向量表示作为node
- dynamic reasoner
- 生成结构:基于被提取的节点生成文档级结构
- 更新node表示:
- 基于隐式结构上的信息传递
- 迭代细化
- classifier
- 分类:节点最后的表达被用于计算分类的分数
- node constructor
- 构建隐式文档级别图
3.1 Node constructor
- encoder:文档中的每个句子编码表示
- node:最短依赖路径的mention和tokens的向量表示作为node
- mention node
- entity node
- meta dependency paths node(MDP)
- 所有mentions最短依赖路径的集合
- token–>node
3.1.1 context encoding
- 文档d,文档内句子 d i d_i di
- 编码器:LSTM(BiLSTM)/Bert
- BiLSTM
- h j i → = L S T M l ( h j + 1 i ← , γ j i ) \overrightarrow{h_j^i}=LSTM_l(\overleftarrow{h_{j+1}^i},\gamma_j^i) hji=LSTMl(hj+1i,γji)
- h j i ← = L S T M l ( h j − 1 i → , γ j i ) \overleftarrow{h_j^i}=LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i) hji=LSTMl(hj−1i,γji)
- j-di中的第j个token
- γ : w o r d e m b e d d i n g \gamma:word embedding γ:wordembedding
- h j i = [ h j i ← ; h j i → ] h_j^i=[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}] hji=[hji;hji]
- BiLSTM
3.1.2 Node Extraction
- node:最短依赖路径的mention和tokens的向量表示作为node
- mention node
- entity node
- mentions的平均
- meta dependency paths node(MDP)
- 所有mentions最短依赖路径的集合
- token–>node
- 构建图
- Sahu:使用一个句子的依赖树中的所有节点
- Christopoulou:通过对句子的所有标记求平均来构建一个句子级别的节点
- 或者:使用mention之间的最短依赖路径上的tokens
- 这个广泛用于句子级关系抽取,因为他可以有效使用相关信息,忽视无关信息
3.2 Dynamic Reasoner
- structure induction
- 学习隐式的文档级图结构
- multi-hop reasoning
- 在图上推理
- 更新节点表示(基于信息传递)
- 迭代
- N blocks
- 为了迭代细化隐式的文档级图,为了更好的推理
3.2.1 Structure Induction
- 不依赖于规则和共指消解
- 将图结构视作隐式的变量,并以端到端的形式引入它
- 基于:结构化的attention
- 公式
- node: u i , u j u_i,u_j ui,uj上下文表示
- pair-wise unnormalized attention score
-
s
i
j
=
(
t
a
n
h
(
W
p
u
i
)
)
T
W
b
(
t
a
n
h
(
W
c
u
j
)
)
s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))
sij=(tanh(Wpui))TWb(tanh(Wcuj))
- 2个ff
- 1个bilinear transformation
- root score s i r = W r u i s_i^r=W_ru_i sir=Wrui–第i个节点被选作root的概率
- 边的权重 P i j = { 0 if i=j e x p ( s i j ) otherwise P_{ij}= \begin{cases} 0& \text{if i=j}\\ exp(s_{ij})& \text{otherwise} \end{cases} Pij={0exp(sij)if i=jotherwise
- 拉普拉斯矩阵
- L i j = { Σ i ′ = 1 n P i ′ j if i=j − P i j o t h e r w i s e L_{ij}=\begin{cases} \Sigma_{i'=1}^nP_{i'j} & \text{if i=j}\\ -P_{ij}&otherwise \end{cases} Lij={Σi′=1nPi′j−Pijif i=jotherwise
- variant: L i j ^ = { e x p ( s i r ) if i=1 L i j if i>1 \hat{L_{ij}}=\begin{cases} exp(s_i^r)& \text{if i=1}\\ L_{ij}& \text{if i>1} \end{cases} Lij^={exp(sir)Lijif i=1if i>1
-
s
i
j
=
(
t
a
n
h
(
W
p
u
i
)
)
T
W
b
(
t
a
n
h
(
W
c
u
j
)
)
s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))
sij=(tanh(Wpui))TWb(tanh(Wcuj))
- marinal probability of the dependency edge:
- A i j = ( 1 − δ 1 , j ) P i j [ L − 1 ^ ] i j − ( 1 − δ i , 1 ) P i j [ L − 1 ^ ] j i A_{ij}=(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji} Aij=(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]ji
- 输出给下一组件
3.2.2 Multi-hop Reasoning
- GCN
- dense connection
- 捕捉到更多结构信息
- 帮助训练更深的网络
- –获取更丰富的局部和非局部的信息
- u i l = R e l u ( Σ j = 1 n A i j W l u i l − 1 + b l ) u_i^l=Relu(\Sigma_{j=1}^nA_{ij}W^lu_i^{l-1}+b^l) uil=Relu(Σj=1nAijWluil−1+bl)
- dense connection
3.2.3 Iterative Refinement
- structured attention诱导的图结构不足
- 相对较浅
- 无法建模复杂的依赖
- 解决:在更新后的表示上细化图
- 堆叠N个动态reasoner
- 诱导N次图
- 早期:更多的是相邻的信息
- 迭代多了之后,结构获得了更丰富的非局部信息的交互,因而诱导模块能够生成包含更多信息的结构
- 堆叠N个动态reasoner
3.3 分类器
P ( r ∣ e i , e j ) = σ ( e i T W e e j + b e ) r P(r|e_i,e_j)=\sigma(e_i^TW_ee_j+b_e)_r P(r∣ei,ej)=σ(eiTWeej+be)r
4.结果
- 数据集:
- DocRED
- F1:59.05\
- CDR
- GDA
- DocRED
- DocRED结论
- 该模型可以更准确地发现句间关系
- 静态的基于文档图的模型不能够捕捉到复杂的交互
- LSR比动态的基于局部attention的模型能够得到更多信息的文档级结构,获得更好的推理
- 直接编码整个文档的模型不能够捕捉到句间关系
- 好于Bert:捕捉到了长期依赖,而没有使用上下文的模型
- 该模型可以更准确地发现句间关系
- CDR
- LSR 打不过:
- Spacy在生物领域很弱,所以不行
- 简化的LSR:去除MDP,使用全连接图
- 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
- 本文要是用了的话他也行(他自己说的)
- 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
- LSR 打不过:
- GDA:
- Christopoulou2019全连接图的变体:他的句间关系好于句内关系,因为他忽略了不同句子间的差异(当一个句子处理了)
4.6.1 Latent Structure Matter的有效性
- 相同block num下,效果最好,证明了有效
4.6.2 细化
- 第二次迭代时(2个block)最好,所以细化有效,但是太多次就会过拟合。
4.7 Ablation Study
- Structure Induction
- 去掉这个性能下降最多,且都是句间关系抽取性能下降的结果
- 隐式结构有用