预训练模型之Huawei Nezha

最新推荐文章于 2023-03-28 15:18:12 发布

愚昧之山绝望之谷开悟之坡

最新推荐文章于 2023-03-28 15:18:12 发布

阅读量628

点赞数

分类专栏： NLP基础知识

本文链接：https://blog.csdn.net/qq_15821487/article/details/119145131

版权

NLP基础知识专栏收录该内容

133 篇文章 9 订阅

订阅专栏

好了，废话不多说，笔者今天更新一遍关于预训练模型的短文，讲一下集预训练模型所长的huawei nezha。

预训练模型bert原理与应用，笔者在之前已经做了比较详细的介绍了，这里就直接将nezha相对于bert到底改了哪些点。

阿力阿哩哩：BERT的原理与应用

zhuanlan.zhihu.com
图标
1.1 相对位置编码
Bert的position embedding是直接初始化一个embedding，然后通过预训练去学的，而nezha是通过下面这个三角函数公式设置一个position embedding，也就是position embedding。

使用选择固定的正弦函数的好处：主要是因为它可以使模型外推到比训练中遇到的序列长的序列长度。

1.2 全词掩盖(Whole Word Masking，wwm)
这个策略和bert_wwm以及百度的ernie没啥差别，就是在生成预训练样本过程时，不再采用随机掩盖token的方式，而是随机掩盖词组的方式，这样能充分让模型学习词汇信息。

阿力阿哩哩：BERT与其他预训练模型

zhuanlan.zhihu.com
图标
1.3 混合精度训练
该技术可以将训练速度提高2-3倍，还可以减少模型的空间消耗，从而可以在预训练过程中使用更大的batch。

1.4 LAMB Optimizer
《Large Batch Optimization for Deep Learning：Training BERT in 76 minutes》文章提出的一个优化器，它可以将预训练bert时间从三天降到76分钟，为此，nezha也用上了。

1.5 总结
虽说Nezha咋一看其实毫无亮点，只是将bert之后的所有预训练模型长处拼接在一起，但它的性能确实得到了不少得提升，这里还是建议大家去用一下。

愚昧之山绝望之谷开悟之坡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
预训练模型之Huawei Nezha

好了，废话不多说，笔者今天更新一遍关于预训练模型的短文，讲一下集预训练模型所长的huawei nezha。预训练模型bert原理与应用，笔者在之前已经做了比较详细的介绍了，这里就直接将nezha相对于bert到底改了哪些点。阿力阿哩哩：BERT的原理与应用zhuanlan.zhihu.com图标1.1 相对位置编码Bert的position embedding是直接初始化一个embedding，然后通过预训练去学的，而nezha是通过下面这个三角函数公式设置一个position embe
复制链接

扫一扫

专栏目录