经典论文阅读（7）——NEZHA

最新推荐文章于 2024-09-11 08:08:18 发布

fmf1287

最新推荐文章于 2024-09-11 08:08:18 发布

阅读量1.4k

点赞数

分类专栏：经典论文文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmf1287/article/details/121918858

版权

经典论文专栏收录该内容

10 篇文章

订阅专栏

论文位置：NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity

NEZHA基于BERT，并进行了一系列改进，包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。

预训练NEZHA模型

功能相对位置编码

在基础Transformer的基础上，提出了一种参数相对位置编码，在相对位置编码方案中，注意得分的计算涉及到两个位置之间的相对距离的参数嵌入。公式如下：

$z_i = \sum_{j=1}^n\alpha_{ij}(x_jW^V+a_{ij}^V)\\ e_{ij} = \frac{(x_iW^Q)(x_jW^K+a_{ij}^K)^T}{\sqrt{d_z}}$

在NEZHA的当前版本中，我们采用函数相对位置编码，其中输出和注意得分的计算涉及到相对位置的正弦函数。公式如下，其中a_{ij}为：

$a_{ij}[2k]=sin((j-i)/10000^{\frac{2\cdot k}{d_z}})\\ a_{ij}[2k+1]=cos((j-i)/10000^{\frac{2\cdot k}{d_z}})$

全词mask

全词mask即WWM的策略是一旦一个汉字被屏蔽，属于同一汉字的其他字符都被屏蔽在一起。在实现NEZHA版本的WWM时，我们用jieba对中文进行分词。

混合精度训练

传统的深度神经网络使用FP32（即单精度浮点格式）。混合精度训练维护模型中权重的单精度副本（即主权重），在每次训练迭代中，它将主权重四舍五入成FP16，并使用存储在FP16格式中的权重、激活和梯度执行前向和后向传递。最后，将梯度转换为FP32格式，并使用FP32梯度更新主权重。

LAMB优化

LAMB优化器是针对深度神经元网络的大批量同步分布式训练而设计的。LAMB优化器采用一般的适应策略，同时提供洞察收敛的理论分析。优化器通过使用非常大的批处理大小(中超过30k)来加速BERT的训练，而不会导致性能损失。

实验

使用的预训练数据包含：中文维基、百度百科、中文新闻。

结论

我们采用了一种有效的功能相对位置编码方案，与其他位置编码方案相比有了显著的改进。NEZHA模型的预训练还集成了全词mask策略、混合精度训练和LAMB优化等多种技术。

博客等级

码龄8年

17
原创

21
点赞

207
收藏

3458
粉丝

关注

私信

分类专栏

最新评论

GCN论文阅读与代码梳理（3）——ASTGCN
koala747: 请问最后的预测可视化是咋做的
GCN论文阅读与代码梳理（1）——AGCRN
郭月半: 注意到一个超参数real_value设为true是什么作用，而且在BasicTrainer，py文件74行， if self.args.real_value: label = self.scaler.inverse_transform(label)#这怎么只反转目标值，不反转预测值，用标准化后的值预测真实值？ loss = self.loss(output.cuda(), label)
GCN论文阅读与代码梳理（4）——GAT
全粘大学生: 注意力共享是什么意思
GCN论文阅读与代码梳理（3）——ASTGCN
wys0910: 现在用pyg的代码好少啊，全是自己手动写，我功力没那么厚啊
GCN论文阅读与代码梳理（3）——ASTGCN
infinity°º: 麻烦问下博主。有原来paper的代码吗？可以共享下吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。