BERT-wwm、BERT-wwm-ext-CSDN博客

本文链接：https://blog.csdn.net/weixin_41797870/article/details/105274928

1.Bert-wwm

wwm 即 Whole Word Masking（对全词进行Mask），是谷歌在2019年5月31号发布的一项bert升级版本，主要更改了原预训练阶段的训练样本生成策略。相比于bert的改进是用Mask标签替换一个完整的词而不是字词，中文和英文不同，英文最小的token是一个单词，而中文中最小的token却是字，词是由一个或多个字组成，且每个词之间没有明显的分割，包含更多信息的是词，对全词mask就是对整个词都通过mask进行掩码。
说明样例：
原始文本：使用语言模型来预测下一个词的probability。
分词文本：使用语言模型来预测下一个词的 probability 。
原始Mask输入：使用语言 [MASK]型来 [MASK]测下一个词的 pro [MASK] ##lity 。
全词Mask输入使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。

论文下载地址：https://arxiv.org/pdf/1906.08101.pdf

2.Bert-wwm-ext

它是BERT-wwm的一个升级版，相比于BERT-wwm的改进是增加了训练数据集同时也增加了训练步数。
BERT-wwm-ext主要是有两点改进：
1）预训练数据集做了增加，次数达到5.4B；
2）训练步数增大，训练第一阶段1M步，训练第二阶段400K步。
中文模型下载
由于目前只包含base模型，故我们不在模型简称中标注base字样。
BERT-base模型：12-layer, 768-hidden, 12-heads, 110M parameters

模型简称	语料	Google下载	讯飞下载
BERT-wwm-ext, Chinese	中文维基+通用数据[1]	TensorFlow PyTorch	TensorFlow（密码4cMG）PyTorch（密码XHu4）
BERT-wwm, Chinese	中文维基	TensorFlow PyTorch	TensorFlow（密码07Xj）PyTorch（密码hteX）

[1] 通用数据包括：百科、新闻、问答等数据，总词数达5.4B
以上预训练模型以TensorFlow版本的权重为准。对于PyTorch版本，我们使用的是由Huggingface出品的PyTorch-Transformers 1.0提供的转换脚本。如果使用的是其他版本，请自行进行权重转换。

中国大陆境内建议使用讯飞云下载点，境外用户建议使用谷歌下载点，base模型文件大小约400M。以TensorFlow版BERT-wwm, Chinese为例，下载完毕后对zip文件进行解压得到：

chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
其中bert_config.json和vocab.txt与谷歌原版BERT-base, Chinese完全一致。 PyTorch版本则包含pytorch_model.bin, bert_config.json, vocab.txt文件。