0.总结
- 文章来源: LawsonAbs@CSDN
- 各大预训练模型的对比
1. ELMO
| ELMO |
---|
全称 | Embedding from Language Models |
目标 | 得到的词的表示 |
编码器 | BiLSTM,一个用于forward LM,一个用于backward LM。 |
解码器 | 无 |
预训练任务 | 预测下一个词+预测前一个词 |
损失函数 | |
优点 | 1. 能解决一词多义问题 ; 2. |
缺点 | 1.两个单向神经网络的输出的拼接,并不是作为一个整体;2.单向的语言模型来学习语言表示 |
用法 | 将训练好的embedding 放到存在的模型中使用 |
2. BERT
| BERT |
---|
目标 | |
编码器 | Transformer |
解码器 | 无 |
预训练任务 | MLM+NSP |
损失函数 | |
优点 | (1)利用无监督的方式训练一个大模型 |
因为Bert 的缺点太多(后面有太多的工作针对这些缺点进行改进),这里就单独拿出来仔细分析。
- 预训练与微调阶段不一致的问题
- BERT独立性假设的问题:即没有对被遮掩的token之间的关系进行学习
- 无法应对生成式问题
3. GPT
4. Xlnet
在谈 Xlnet
之前,看看下面两个概念:
- AR 语言模型:依据单向序列预测当前的token,这个方向可以是前向也可以是后向。
这类模型适合生成类任务。代表的例子就是GPT,GPT-2,ELMO
- AE 语言模型
获取双向信息进行预测。例如想预测位置t的单词,既可以前向获取信息也可以后向获取信息。典型代表:BERT。
Xlnet 将AR和AE两种统一到一起。提出使用PLM(Permutation Language Model)。
| Xlnet |
---|
目标 | |
编码器 | |
解码器 | |
预训练任务 | |
损失函数 | |
优点 | 1.真正的双向学习;2.采用了permutation 语言模型;使用双流自注意力机制;结合Transformer-XL 的相对位置编码 |
缺点 | |
5. BART
| BART |
---|
目标 | |
编码器 | |
解码器 | |
预训练任务 | |
损失函数 | |
优点 | |
缺点 | |