知识蒸馏（Knowledge Distillation）【学习笔记】

全息数据

已于 2024-02-08 16:41:28 修改

阅读量750

点赞数 2

文章标签：笔记深度学习目标检测 pytorch 图像处理

于 2023-06-12 10:53:51 首次发布

本文链接：https://blog.csdn.net/qq_23022733/article/details/131062995

版权

知识蒸馏是一种模型压缩技术，通过教师网络的softtargets向学生网络传递更多信息。hardtargets是确定的分类标签，而softtargets包含类别概率，提供更丰富的信息。蒸馏温度T调节概率分布，影响学生网络学习教师网络的程度。实验显示，softtargets能有效防止过拟合，常用于模型优化和压缩。

摘要由CSDN通过智能技术生成

文章目录

1、hard targets 和 soft targets

比如在识别马，驴，车的分类任务中，需要对这三个类别打标签，比如对一头马打标签，对于hard targets 就是马：1，驴：0，车：0，而对于soft targets就是马：0.7，驴：0，25，车：0.05
显然soft targets的标签更具有科学性，说明了该对象有多像马，有多不像马，所以soft targets可以传递更多的信息，
在知识蒸馏中，一般用hard targets作为ground truth训练教师网络，教师网络预测的结果作为soft targets来训练学生网络，
soft targets包含了更多“知识”和‘“信息’，像谁，不像谁，有多像，有多不像，特别是非正确类别概率的相对大小(驴和车)|

2、蒸馏温度 T

蒸馏温度 T是调节正确类别和非正确类别的概率的相对大小

公式如下：

$q_{i}=\frac{exp(Z_{i}/ T)}{\sum_{i}exp(Z_{j}/ T)}$

T越大，则正确类别的概率和非正确类别的概率的相对差值就越小，如下图，
在这里插入图片描述

在这里插入图片描述
下图是bili up 同济子豪兄的图示：

在这里插入图片描述

3、知识蒸馏的过程

首先需要一个提前训练好的教师网络，数据喂给教师网络，蒸馏温度为T，一般参数T<20，输出soft labels，如下图第一行，学生网络可以是训练一定epoch的，也可以是没有训练的，然后同样的数据喂给学生网络，蒸馏温度同样为T，输出为soft predictions，然后教师网络输出的soft labels和学生网络输出的soft predictions做损失函数，目的是蒸馏温度同样为T，学生网络要接近教师网络，
接着，同样的数据喂给学生网络，蒸馏温度为1，输出的是hard predictions，hard predictions和hard labels做损失函数，
最后给2个损失函数调整合适的权重作为网络的总的损失函数，由于 $L_{dis}$ 的梯度大约是 $L_{stu}$ 的 $\frac{1}{T^2}$ ，因此可以在 $L_{dis}$ 前乘上 $T^2$ ，可以保证两个损失部分的梯度量贡献基本一致，