ELMo
ELMo来自于论文《Deep contextualized word representations》,介绍了一种高效的动态词向量。在摘要部分,作者提到词向量主要是用来解决两大问题:
- 单词使用的复杂性,例如语法、语义
- 不同语境下的单词使用,例如同义词
传统的Word2Vec或者Glove只能解决第一个问题,但是他们本身都是静态的词向量,也就是说每个词的向量化表示是固定的。但是很多词在不同的语境下表达的意思是完全不同的。例如“我去洗手间方便一下”和“你今晚几点方便”这两句话中的“方便”表达的意思显然不同。因此在这种情况下,我们自然希望有一种动态的词向量能够根据语境来表示单词,ELMo所做的就是这件事。另外值得一提的是,EMLo也开创了预训练语言模型的先河。
Model Overview
ELMo主要包含下面几大部分:
- Token Embedding:对上下文不敏感的词向量(论文中用的是CharCNN)
- Bidirectional Language Model:对上下文敏感的词向量(论文中用的是BiLSTM)
- Fit EMLo word representation into downstream NLP tasks
ELMo的主要思想是通过双向的预训练语言模型得到每层的状态表示,然后基于这些状态向量和初始embedding学习一个线性组合作为最终的词向量表示。
BiLM
先来看一下论文中的双向语言模型。语言模型我们比较熟悉,比如N-gram、RNN等都是常见的语言模型。语言模型的训练是基于链式法则,最大化概率乘积:
P
(
t
1
,
t
2
,
…
,
t
N
)
=
∏
k
=
1
N
p
(
t
k
∣
t
1
,
t
2
,
…
,
t
k
−
1
)
P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^N p(t_k\ |\ t_1,t_2,\dots,t_{k-1})
P(t1,t2,…,tN) = k=1∏Np(tk ∣ t1,t2,…,tk−1)
这是单向的,或者说是正向的语言模型,也就是根据前面的信息预测当前的token。那么反向的就是反过来,根据后面的信息预测当前的,目标函数也就变为了:
P
(
t
1
,
t
2
,
…
,
t
N
)
=
∏
k
=
1
N
p
(
t
k
∣
t
k
+
1
,
t
k
+
2
,
…
,
t
N
)
P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^{N} p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N})
P(t1,t2,…,tN) = k=1∏Np(tk ∣ tk+1,tk+2,…,tN)
因此,一个双向的语言模型要最大化的就是上面两个的似然之和:
∑
k
=
1
N
(
l
o
g
p
(
t
k
∣
t
1
,
t
2
,
…
,
t
k
−
1
;
Θ
x
,
Θ
L
S
T
M
→
,
Θ
s
)
+
l
o
g
p
(
t
k
∣
t
k
+
1
,
t
k
+
2
,
…
,
t
N
;
Θ
x
,
Θ
L
S
T
M
←
,
Θ
s
)
)
\sum_{k=1}^N (log\ p(t_k\ |\ t_1,t_2,\dots,t_{k-1};\Theta_x,\Theta^{\rightarrow}_{LSTM},\Theta_s)\ +\\ \ \ \ \ log\ p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N};\Theta_x,\Theta^{\leftarrow}_{LSTM},\Theta_s))
k=1∑N(log p(tk ∣ t1,t2,…,tk−1;Θx,ΘLSTM→,Θs) + log p(tk ∣ tk+1,tk+2,…,tN;Θx,ΘLSTM←,Θs))
这里
Θ
x
\Theta_x
Θx和
Θ
s
\Theta_s
Θs分别表示初始词向量的参数和
s
o
f
t
m
a
x
softmax
softmax层的参数,这两个是全局共享的参数。
论文中所采用的是双向的LSTM,假设我们训练了
L
L
L层的BiLSTM,那么对于每个词我们就能够得到
2
L
+
1
2L+1
2L+1个向量表示:
R
k
=
{
x
k
,
h
k
,
j
→
,
h
k
,
j
←
,
…
∣
j
=
1
,
2
,
…
,
L
}
=
{
h
k
,
j
∣
j
=
0
,
1
,
…
,
L
}
R_k\ =\ \{x_{k}, \ h^{\rightarrow}_{k,j},\ h^{\leftarrow}_{k,j}, \ \dots\ |\ j=1,2,\dots,L\} \\ \ \ \ \ =\ \{h_{k,j} \ |\ j=0,1,\dots,L\}
Rk = {xk, hk,j→, hk,j←, … ∣ j=1,2,…,L} = {hk,j ∣ j=0,1,…,L}
其中
h
k
,
0
=
[
x
k
,
x
k
]
h_{k,0}\ =\ [x_k,x_k]
hk,0 = [xk,xk]
论文中的与训练任务就是最简单的next word prediction,最终其实没有采用很深的网络结构,只是采用了两层LSTM,但是hidden size比较大。
Downstream NLP task
在得到了
R
k
R_k
Rk以后,要得到最后的ELMo向量有两种选择:一种是就用最后一层的隐状态,另一种是用所有层训练一个线性组合。作者对这两种方案进行了对比试验,后面会看到。对于线性组合的方案,我们得到的是:
E
L
M
o
k
t
a
s
k
=
γ
t
a
s
k
∑
j
=
1
L
s
j
t
a
s
k
h
k
,
j
L
M
ELMo_{k}^{task}\ =\ \gamma^{task}\sum_{j=1}^{L}s^{task}_{j}h^{LM}_{k,j}
ELMoktask = γtaskj=1∑Lsjtaskhk,jLM
其中,
s
j
t
a
s
k
s^{task}_j
sjtask 表示softmax-normalized weights,标量参数$ \gamma^{task}$ 是缩放因子,允许任务模型缩放整个ELMo向量(allows the task model to scale the entire ELMo vector)
γ
\gamma
γ对于帮助优化过程具有实际意义。通常较小的
γ
\gamma
γ模型在大多数cases中效果会更好。
然后就可以把这个词向量应用到下游任务当中了,在应用到下游任务的时候,我们可以把ELMo向量与输入结合,也可以和输出结合,当然两个一起效果比较好。
Experiment
作者在很多任务上对ELMo进行了实验,具体有:
- Question answering:问答系统
- Textual entailment:文本蕴涵,判断两个文本能否互相推论
- Semantic role labeling:语义角色标注
- Coreference resolution:共指消解
- Named entity extraction:命名实体抽取
- Sentiment analysis:情感分析
同时作者做了两组对比试验,分别是:
- 只用最后一层隐状态和用线性组合对比
- 对于下游任务,输入与ELMo结合、输出与ELMo结合、都结合三者对比
结果如下:
Analysis
-
作者发现,比较浅层的BiLSTM layer学习到的大多是语法信息,深层的BiLSTM layer学习到的是语义信息。对于不同的任务,作者也将不同层的权重做了可视化:
-
作者发现ELMo在小样本情况下能使得模型效果得到很大提升:
-
在损失函数中加入L2正则也能使效果有显著提升
-
ELMo很好的实现了单词在不同语境下的语义区分,如下图:
Model Detail
这里附一个非常详细的模型描述,包括CharCNN和BiLSTM两部分