预训练大模型

最新推荐文章于 2024-09-12 12:57:19 发布

baidu_35560935

最新推荐文章于 2024-09-12 12:57:19 发布

阅读量878

点赞数 7

文章标签：自然语言处理机器学习人工智能

本文链接：https://blog.csdn.net/baidu_35560935/article/details/125716978

版权

本文介绍了预训练模型在NLP领域的演进，从GPT-1到GPT-3，再到悟道，展示了模型参数量的增长和性能提升。同时，讨论了大模型在搜索推荐、智能客服等领域的应用，以及训练和部署中遇到的挑战，如模型压缩、知识蒸馏和混合精度训练。此外，提到了模型压缩技术如剪枝、量化，并列举了相关算法，最后提及了NLP测试基准GLUE。

摘要由CSDN通过智能技术生成

预训练模型（Pre-trained Models，PTMs）

NLP 模型

-AutoEncoder
-Autoregressive
-Encoder-Decoder

NLP 任务

-NLU
-无条件生成
-seq-seq

			参数量	任务	类型
2018	OpenAI	GPT-1	1亿	NLP	Autoregressive
2018	Google	BERT	3亿	NLP	AutoEncoder
2020	Microsoft	ImageBERT
2020	Google	T5	100亿	NLP
2020	Microsoft	Turing-NLG		NLP
2020	OpenAI	GPT-3	1750亿	NLP
2020	Microsoft	MT-NLG	5300亿	NLP
2021	智源	悟道		NLP

NLP 大模型应用

搜索推荐广告
智能客服
内容社区
审核，发布
企业办公
简历理解

大模型训练问题

BF16 的整数范围更广泛,但是尾数精度较
TPU A100 Ampere 架构
V100 不支持
Fp16
FP32
混合精度训练
pytorch amp
nvidia apex

预训练大模型应用问题

大模型推理时间长，部署困难
模型压缩，模型效果和推理性能平衡

模型压缩方法

知识蒸馏
TinyBert DistillBert MiniLM
-剪枝
LayerDrop ，DynaBERT block Pruning
-量化
QBert ，TenaryBert binary Bert

模型蒸馏

单步蒸馏效果查引入助教模型
Improved Knowledge distillation via teacher assistant

自动助教寻优的模型压缩

AutoDisc
最少的参数，最大的教师性能

NLP 的测试benchmark

GLUE

baidu_35560935

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫