好久没更新blog了,这十几天一直忙着在腾讯适应工作环境,互联网大厂的生活确实是挺忙的,建议对互联网大厂怀有幻想的小伙伴争取在读书的时候去实习体验一下,再康康自己适不适合这种生活。
好了,废话不多说,笔者今天更新一遍关于预训练模型的短文,讲一下集预训练模型所长的huawei nezha。
预训练模型bert原理与应用,笔者在之前已经做了比较详细的介绍了,这里就直接将nezha相对于bert到底改了哪些点。
1.1 相对位置编码
Bert的position embedding是直接初始化一个embedding,然后通过预训练去学的,而nezha是通过下面这个三角函数公式设置一个position embedding,也就是position embedding。
使用选择固定的正弦函数的好处:主要是因为它可以使模型外推到比训练中遇到的序列长的序列长度。
1.2 全词掩盖(Whole Word Masking,wwm)
这个策略和bert_wwm以及百度的ernie没啥差别,