摘要:
语训练模型由于能够获取深度上下文信息在多个自然语言理解获得巨大成功,这种模型通过预训练大量无标签语料得到。当前版本的NEZHA是基于BERT模型经过一系列改进验证得到的模型,其中改进的包括函数式位置编码Functional Relative Positional Encoding,全词mask策略,Whole Word Masking strategy,Mixed Precision Training,LAMB Optimizer。
1.引言
例如ELMO BERT ERNIE-Baidu ERNIE-tSINGHUA XLNET ROBERTa等预训练模型用大量训练预料训练,已经获得了比较大的成功在基于上下文的词向量表示。
已经存在了预训练模型大部分是学习英文预料,在中文中也有所尝试,例如google的BERT、ERNIE-Baidu 、BERT-WWM,以上模型都是基于transformer结构并且训练两个无监督的任务:mask语言模型(MLM)和是否是下一个句子的预测(NSP)。在MLM任务重尝试预测被掩盖的词汇信息。在NSP任务中尝试预测一个句子是否是下一个句子还是不是。那么以上的中文预训练模型主要是在MLM任务中的掩盖词汇的策略不同。在google BERT模型中主要单独掩盖Chinese character或者wordpiece token,其实基本上就是单独预测字符,从源码来看,所以确实中文词汇信息。ERNIE-Baidu 利用e MLM task更加具有挑战性,主要掩盖了一些实体entities和一些短语,这些短语与实体可能包含多个字符或者词语。BERT-WWM 采用了相似的策略,如果属于同一个词汇则全部mask,最近公布的ERNIE-Baidu 2.0合并了词汇与文档的关系预测以及句子重排序任务。(所以值得关注百度的预训练模型在中文各种任务的效果)。我们在模型中采用Functional Relative Positional Encoding函数式相对位置编码,在BERT模型中主要采用的是绝对位置编码,把位置信息编码加入到word embedded的信息中,transformer是这样的策略。主要存在两种经典的位置信息编码策略,(1)函数式位置编码信息,利于预先定义好的函数对位置进行信息编码,(2)参数式位置编码信息,把位置编码向量作为参数参与训练。【11】提出了参数相对位置编码信息,把位置信息参与到self-attention结构中。Transformer-XL [12] and XLNet [6] 用a sinusoid 编码矩阵和两个可训练偏执项作为位置编码相对位置。
在这个报告中我们采用预定义函数式相对位置编码参与到self-attention中,并且没有可训练参数。实验表明这种方法十分有效。本文章的主要贡献点有三个: 全词masking(基本中文都是这样),mixed training, lamb优化器
模型预训练
2.1BERT Model & Positional Encoding
这一张主要讲解了transformer的核心self-attention以及位置编码,我们当时再复习一遍。BERT是transformer的迭代编码器。每一个transformer编码是多头self-attention。每一个子层用残差连接,并且跟随一个layer normalization。如果想要详细介绍参考文献[9]。在BERT训练中都是一对句子,有12%的词汇被掩盖,1.5%利用随机词汇替代。每一个样本包含(A和B)50%的B的句子是A的下一个句子,50%不是。BETR可以看做是去噪自编码,由于他的一项任务就是回复数据中的词汇。相当于把缺失的预测出来减少噪声。
请见基于中文哪吒NEZHA的FLAT的命名实体识别实现与探讨(一)_chenmingwei000的博客-CSDN博客_flat 命名实体识别