经典论文阅读(7)——NEZHA

 

论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity

NEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。

预训练NEZHA模型

功能相对位置编码

在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计算涉及到两个位置之间的相对距离的参数嵌入。公式如下:

z_i = \sum_{j=1}^n\alpha_{ij}(x_jW^V+a_{ij}^V)\\ e_{ij} = \frac{(x_iW^Q)(x_jW^K+a_{ij}^K)^T}{\sqrt{d_z}}

在NEZHA的当前版本中,我们采用函数相对位置编码,其中输出和注意得分的计算涉及到相对位置的正弦函数。公式如下,其中a_{ij}为:

a_{ij}[2k]=sin((j-i)/10000^{\frac{2\cdot k}{d_z}})\\ a_{ij}[2k+1]=cos((j-i)/10000^{\frac{2\cdot k}{d_z}})

全词mask

全词mask即WWM的策略是一旦一个汉字被屏蔽,属于同一汉字的其他字符都被屏蔽在一起。在实现NEZHA版本的WWM时,我们用jieba对中文进行分词。

混合精度训练

传统的深度神经网络使用FP32(即单精度浮点格式)。混合精度训练维护模型中权重的单精度副本(即主权重),在每次训练迭代中,它将主权重四舍五入成FP16,并使用存储在FP16格式中的权重、激活和梯度执行前向和后向传递。最后,将梯度转换为FP32格式,并使用FP32梯度更新主权重。

LAMB优化

LAMB优化器是针对深度神经元网络的大批量同步分布式训练而设计的。LAMB优化器采用一般的适应策略,同时提供洞察收敛的理论分析。优化器通过使用非常大的批处理大小(中超过30k)来加速BERT的训练,而不会导致性能损失。

实验

使用的预训练数据包含:中文维基、百度百科、中文新闻。

结论

我们采用了一种有效的功能相对位置编码方案,与其他位置编码方案相比有了显著的改进。NEZHA模型的预训练还集成了全词mask策略、混合精度训练和LAMB优化等多种技术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值