论文:2018 NAACL 《Deep Contextualized Word Representations》
1 优势
能学习单词句法和语义,学习不同语言环境中的差异(即一词多义)。
2 模型
2.1 BiLM(双向语言模型)
利用前k-1个token来预测第k个token:
又添加了另一个方向的预测,利用k+1至N个token来预测第k个token:
双LM结合了前向和后向的LM:
2.2 ELMo
ELMo就是将原始输入进行embedding之后再送入上述模型,用上述模型的每一层输出来作为词向量的表示:
其中
x
k
L
M
{x^{LM}_k}
xkLM是输入的embedding表示,
h
k
,
j
L
M
{h^{LM}_{k,j}}
hk,jLM是双向LSTM的每一层
两个方向输出的concat, j为LSTM的层号。
将每一层的输出进行整合:
其中γ和s分别起着控制缩放与权值的作用, 它们的取值需要根据具体任务来进行调整。