预训练模型(Pre-trained Models,PTMs)
NLP 模型
-AutoEncoder
-Autoregressive
-Encoder-Decoder
NLP 任务
-NLU
-无条件生成
-seq-seq
参数量 | 任务 | 类型 | |||
---|---|---|---|---|---|
2018 | OpenAI | GPT-1 | 1亿 | NLP | Autoregressive |
2018 | BERT | 3亿 | NLP | AutoEncoder | |
2020 | Microsoft | ImageBERT | |||
2020 | T5 | 100亿 | NLP | ||
2020 | Microsoft | Turing-NLG | NLP | ||
2020 | OpenAI | GPT-3 | 1750亿 | NLP | |
2020 | Microsoft | MT-NLG | 5300亿 | NLP | |
2021 | 智源 | 悟道 | NLP |
NLP 大模型应用
- 搜索推荐 广告
- 智能客服
- 内容社区
审核, 发布 - 企业办公
简历理解
大模型训练问题
BF16 的整数范围更广泛,但是尾数精度较
TPU A100 Ampere 架构
V100 不支持
Fp16
FP32
混合精度训练
pytorch amp
nvidia apex
预训练大模型应用问题
大模型推理时间长,部署困难
模型压缩,模型效果和推理性能平衡
模型压缩方法
- 知识蒸馏
TinyBert DistillBert MiniLM
-剪枝
LayerDrop ,DynaBERT block Pruning
-量化
QBert ,TenaryBert binary Bert
模型蒸馏
单步蒸馏效果查 引入助教模型
Improved Knowledge distillation via teacher assistant
自动助教寻优的模型压缩
AutoDisc
最少的参数,最大的教师性能
NLP 的测试benchmark
GLUE