预训练模型之Huawei Nezha

好了,废话不多说,笔者今天更新一遍关于预训练模型的短文,讲一下集预训练模型所长的huawei nezha。

预训练模型bert原理与应用,笔者在之前已经做了比较详细的介绍了,这里就直接将nezha相对于bert到底改了哪些点。

阿力阿哩哩:BERT的原理与应用
​
zhuanlan.zhihu.com
图标
1.1 相对位置编码
Bert的position embedding是直接初始化一个embedding,然后通过预训练去学的,而nezha是通过下面这个三角函数公式设置一个position embedding,也就是position embedding。

使用选择固定的正弦函数的好处:主要是因为它可以使模型外推到比训练中遇到的序列长的序列长度。

1.2 全词掩盖(Whole Word Masking,wwm)
这个策略和bert_wwm以及百度的ernie没啥差别,就是在生成预训练样本过程时,不再采用随机掩盖token的方式,而是随机掩盖词组的方式,这样能充分让模型学习词汇信息。

阿力阿哩哩:BERT与其他预训练模型
​
zhuanlan.zhihu.com
图标
1.3 混合精度训练
该技术可以将训练速度提高2-3倍,还可以减少模型的空间消耗,从而可以在预训练过程中使用更大的batch。

1.4 LAMB Optimizer
《Large Batch Optimization for Deep Learning:Training BERT in 76 minutes》文章提出的一个优化器,它可以将预训练bert时间从三天降到76分钟,为此,nezha也用上了。

1.5 总结
虽说Nezha咋一看其实毫无亮点,只是将bert之后的所有预训练模型长处拼接在一起,但它的性能确实得到了不少得提升,这里还是建议大家去用一下。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值