Improving Text Understanding via Deep Syntax-Semantics Communication
动机
Syntax-Tree model与sequential semantic model相结合,提高下游任务性能。
Introduction
句子中句法和语义的比较。相同的颜色表示相同(相似)的语义目标。
Model
多层结合模型
定义
句子
S
S
S = {
w
1
w_1
w1,…,
w
n
w_n
wn},对应的sequential 表示:
树表示:
Sequential Encoder
Bi-LSTM:
Tree Encoder(TreeLSTM or GCN)
TreeLSTM:Bi-LSTM:
两个方向连接:
GCN:
N
N
N
(
(
(
j
j
j
)
)
)表示邻居节点,取GCN最后一层的输出作为树表示:
Deep Communication Model
将Sequential encoder 和Tree encoder视为一个完整的unit。
Local Interaction
Local Interaction的动机是鼓励sequential encoder和Tree encoder 从彼此的信息传播模式中学习更多(attenton)。
首先,当前步骤
t
t
t的sequential encoder 中的每个节点将上一时间步骤的相邻节点作为附加输入:
普通的attention:
n
n
n
b
b
b
s
s
s表示邻居
同样,Tree encoder 亦是如此:
Sentence-level Global Propagation
将 Deep Communication Model中的
h
h
h
a
^a
a
l
^l
l
l
^l
l
i
_i
i 更新为:
h
h
h
a
^a
a
l
^l
l
l
^l
l
i
_i
i = [
h
h
h
s
^s
s
e
^e
e
q
^q
q
,
^,
,
t
^t
t
i
_i
i,
h
h
h
t
^t
t
r
^r
r
e
^e
e
e
^e
e
,
^,
,
t
^t
t
i
_i
i]
采用一个gate机制(只有输入门)进行global 传播:
上面带横线的
h
h
h表示ungated 数值。
Decoding and Training
Inner - attention:
- 如果是自然语言推理任务:
两个句子被表示:
然后输出一个概率。 - 如果是分类任务,直接对输出softmax,取最大值作为被分类类别:
LOSS:交叉熵+
L
2
L_2
L2正则化
冷启动
为了避免冷启动训练,分别预训练独立的sequential encoder和tree encoder,然后在step 0 将它们的参数作为初始状态 h 0 h_0 h0。
结果
event factuality prediction(EFP):事件真实性预测
relation classification for drug-drug interaction(Rel):药物相互作用的关系分类
semantic role labeling (SRL):语义角色标注
自然语言推理任务:
Ablation Study
原文用的GloVe(88.2),实验证明用预训练模型对性能有大幅度提升。