1. Introduction
- GPT-3含有175B参数使用了570GB的数据进行训练。但大多数语料是基于英文(93%),并且GPT-3的参数没有分布,所以提出了CPM(Chinese Pretrained language Model):包含2.6B参数,使用100GB中文训练数据。
- CPM可以对接下游任务:对话、文章生成、完形填空、语言理解。
- 随着参数规模的增加,CPM在一些数据集上表现更好,表示大模型在语言生成和理解上面更有效。
- 文章的主要贡献
- 发布了一个CPM:2.6B参数,100GB中文训练数据
- 我们在分词语料库的基础上构建了一种新的子词词汇来适应汉语语料库,并将批处理量增加到3072个,以获得更稳定的模型训练
- 在小样本甚至0样本中得到较好的性能
2. Approach
2.1 Chinese PLM
CPM的模型架构与GPT的架构类似(从左到右的Transformer encoder),下图是三个不同规模的预训练模型
为了使CPM适配中文语料,build a new sub-word vocabulary and adjust the training batch size
**Vocabulary construction:**BERT-