模型训练损失值不变_Bert与模型蒸馏: PKD和DistillBert

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系,

以下是要写的文章,本文是这个系列的第五篇:

  • Transformer:Attention集大成者
  • GPT-1 & 2: 预训练+微调带来的奇迹
  • Bert: 双向预训练+微调
  • Bert与模型压缩
    • Bert与模型蒸馏:PKD和DistillBert(本篇)
    • ALBert(待续)
    • MobileBert(待续)
    • 更多待续
  • Bert与AutoML (待续)
  • 线性Transformer (待续)
  • Bert变种
    • Roberta: Bert调优
    • Reformer (待续)
    • Longformer (待续)
    • T5 (待续)
    • 更多待续
  • GPT-3
  • 更多待续

Overall

Bert模型虽然很火,但是模型太大,在device上基本不可用,要想更好的使用的话需要让模型变小。

而目前模型变小的技术大概有四种:

  • 模型量化:即把float值变为int8,可以直接将模型降为原来的四分之一。速度也会有提高。
  • 矩阵分解:大矩阵分解为小矩阵的乘积去拟合,可以显著降低size。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值