预训练大模型

本文介绍了预训练模型在NLP领域的演进,从GPT-1到GPT-3,再到悟道,展示了模型参数量的增长和性能提升。同时,讨论了大模型在搜索推荐、智能客服等领域的应用,以及训练和部署中遇到的挑战,如模型压缩、知识蒸馏和混合精度训练。此外,提到了模型压缩技术如剪枝、量化,并列举了相关算法,最后提及了NLP测试基准GLUE。
摘要由CSDN通过智能技术生成

预训练模型(Pre-trained Models,PTMs)

NLP 模型

-AutoEncoder
-Autoregressive
-Encoder-Decoder

NLP 任务

-NLU
-无条件生成
-seq-seq

参数量任务类型
2018OpenAIGPT-11亿NLPAutoregressive
2018GoogleBERT3亿NLPAutoEncoder
2020MicrosoftImageBERT
2020GoogleT5100亿NLP
2020MicrosoftTuring-NLGNLP
2020OpenAIGPT-31750亿NLP
2020MicrosoftMT-NLG5300亿NLP
2021智源悟道NLP

NLP 大模型应用

  • 搜索推荐 广告
  • 智能客服
  • 内容社区
    审核, 发布
  • 企业办公
    简历理解

大模型训练问题

BF16 的整数范围更广泛,但是尾数精度较
TPU A100 Ampere 架构
V100 不支持
Fp16
FP32
混合精度训练
pytorch amp
nvidia apex

预训练大模型应用问题

大模型推理时间长,部署困难
模型压缩,模型效果和推理性能平衡

模型压缩方法

  • 知识蒸馏
    TinyBert DistillBert MiniLM
    -剪枝
    LayerDrop ,DynaBERT block Pruning
    -量化
    QBert ,TenaryBert binary Bert

模型蒸馏

单步蒸馏效果查 引入助教模型
Improved Knowledge distillation via teacher assistant

自动助教寻优的模型压缩

AutoDisc
最少的参数,最大的教师性能

NLP 的测试benchmark

GLUE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值