Elmo动机
以往方法的问题:
- 多义词问题:one-hot、word2vec、fastText 为静态方式,即训练完成后,每个词的表达固定。
- 单向性问题:one-hot、word2vec、fastText 都是 从左向右 学习,导致该方法 不能 同时考虑 两边信息。
Elmo思想
预训练时,利用语言模型学习一个单词的embedding。(此时没有解决多义词问题)
微调使用时,单词间具有特定上下文,可以根据上下文单词语义调整单词的embedding表示(此时解决了多义词问题)
理解:预训练时,elmo根据语料训练出每个单词的向量表示,训练完成后就固定(即为静态)。在微调使用阶段,elmo根据特定任务的语料进行微调训练,使其学习到新的特征(动态调整),此时解决多义词问题。
Elmo网络结构
Elmo细节
- elmo的BILSTM层数为2层。
- elmo为两个BI-LSTM联合学习,形成假性双向结构(对上下文)。
- 对于每层LSTM之间增加了残差连接
Elmo问题
- 特征提取器选用LSTM,而不是更强的transformer。
- 利用两个BILSTM拼接起来的双向融合特征并不是真正意义上的双向。