阅读笔记--知识蒸馏

1.一些基本概念

  • 教师模型(Teacher Model):预训练复杂神经网络,高精度,计算存储开销大。
  • 学生模型(Student Model):简单参数少推理快的模型,目标从教师模型获取知识,提升性能。
  • 软标签(Soft Labels):教师模型输出的概率分布,反映类间关系(常用softmax层输出)。
  • 温度(Temperature):调节教师模型输出的概率分布的平滑程度,温度越高越平滑,学生模型则能学到更多类间关系。
  • 熵:平均最小编码长度。

  • 交叉熵:q(x)与p(x)两种概率分布的差异大小。

(交叉熵>=熵   交叉熵最小值证明 - 知乎 (zhihu.com)

  • 损失函数:常常采用软硬标签损失进行加权作为最终损失函数,其中硬标签指学生模型输出值与真实值差异(常用交叉熵),软标签指学生模型输出概率分布与软标签之间的差异(常常用KL散度)。

L_{total} = L_{soft} + (1 - \alpha ) L_{hard}

2.定义

一种模型压缩方法,用于将大型神经网络(教师模型)知识转移到较小神经网络(学生模型)中。

3.背景和动机

深度神经网络(DNN)参数量庞大,与其相关的大型模型(BERT,ResNet)面临存储,计算,延迟的挑战,于是提出知识蒸馏,利用小的学生模型模拟大的教师模型的行为。

4.基本流程

训练教师模型->生成软标签->训练学生模型(软标签+硬标签)

5.优点

  • 模型压缩,降低存储计算开销。
  • 提高推理速度,体积小,运算快,可应用于边缘设备之中。

链接:终于把神经网络中的知识蒸馏搞懂了!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

y_lov

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值