算法工程师面试各大预训练模型的对比

说文科技

已于 2022-09-05 17:04:41 修改

阅读量691

点赞数 2

分类专栏： NLP 文章标签：自然语言处理

于 2022-08-11 21:10:53 首次发布

喜欢文章？请私信联系作者。

本文链接：https://blog.csdn.net/liu16659/article/details/126293337

版权

86 篇文章 18 订阅

订阅专栏

0.总结

	ELMO
全称	Embedding from Language Models
目标	得到的词的表示
编码器	BiLSTM，一个用于forward LM，一个用于backward LM。
解码器	无
预训练任务	预测下一个词+预测前一个词
损失函数
优点	1. 能解决一词多义问题； 2.
缺点	1.两个单向神经网络的输出的拼接，并不是作为一个整体；2.单向的语言模型来学习语言表示
用法	将训练好的embedding 放到存在的模型中使用

因为Bert 的缺点太多（后面有太多的工作针对这些缺点进行改进），这里就单独拿出来仔细分析。

在谈 Xlnet 之前，看看下面两个概念：

Xlnet 将AR和AE两种统一到一起。提出使用PLM（Permutation Language Model）。

	Xlnet
目标
编码器
解码器
预训练任务
损失函数
优点	1.真正的双向学习；2.采用了permutation 语言模型；使用双流自注意力机制；结合Transformer-XL 的相对位置编码
缺点