参考自:https://zhuanlan.zhihu.com/p/49271699
ELMO:得到WE后过BiLSTM调整WE的表达
优点:一词多义
缺点:LSTM特征提取不好
GPT:预训练+调参
优点:采用transformer来提取特征
缺点:变成双向的话会更好吧
Bert:双向的transformer
优点;一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。
优点:一词多义
缺点:LSTM特征提取不好
优点:采用transformer来提取特征
缺点:变成双向的话会更好吧
优点;一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。