BERT模型蒸馏有哪些方法?

©PaperWeekly 原创 · 作者|蔡杰

学校|北京大学硕士生

研究方向|问答系统

我们都知道预训练模型的标准范式:

  • pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。

  • finetune-将预训练过程中所学到的知识应用到子任务中,以达到优异的效果。

预训练模型在各个领域虽然带来了巨大的提升,但是也有一些致命的问题:

  • 预训练模型高计算复杂度-不可能在实时系统中运行。

  • 大存储需求——预训练模型一般都很大,少则几百 M,大则几 G,无法在有限资源的设备上部署。

所以模型压缩和加速技术的研究迫在眉睫!

Logit Distillation

知识蒸馏最早是 Hinton 在 15 年提出的一个黑科技技术,核心思想是通过迁移知识,从而通过训练好的大模型得到更加适合推理的小模型。

论文标题:Distilling the Knowledge in a Neural Network

论文来源:NIPS 2014

论文链接:http://arxiv.org/abs/1503.02531

神经网络通常使用 “softmax” 输出层生成每个类别的概率:

输出层通过将 与其他 logit 进行比较,以

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值