论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity
NEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。
预训练NEZHA模型
功能相对位置编码
在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计算涉及到两个位置之间的相对距离的参数嵌入。公式如下:
在NEZHA的当前版本中,我们采用函数相对位置编码,其中输出和注意得分的计算涉及到相对位置的正弦函数。公式如下,其中a_{ij}为:
全词mask
全词mask即WWM的策略是一旦一个汉字被屏蔽,属于同一汉字的其他字符都被屏蔽在一起。在实现NEZHA版本的WWM时,我们用jieba对中文进行分词。
混合精度训练
传统的深度神经网络使用FP32(即单精度浮点格式)。混合精度训练维护模型中权重的单精度副本(即主权重),在每次训练迭代中,它将主权重四舍五入成FP16,并使用存储在FP16格式中的权重、激活和梯度执行前向和后向传递。最后,将梯度转换为FP32格式,并使用FP32梯度更新主权重。
LAMB优化
LAMB优化器是针对深度神经元网络的大批量同步分布式训练而设计的。LAMB优化器采用一般的适应策略,同时提供洞察收敛的理论分析。优化器通过使用非常大的批处理大小(中超过30k)来加速BERT的训练,而不会导致性能损失。
实验
使用的预训练数据包含:中文维基、百度百科、中文新闻。
结论
我们采用了一种有效的功能相对位置编码方案,与其他位置编码方案相比有了显著的改进。NEZHA模型的预训练还集成了全词mask策略、混合精度训练和LAMB优化等多种技术。