FitNets: Hints for thin deep nets论文笔记_fit-dnn 阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_43812519/article/details/105332565

本文介绍了一种名为FitNets的深度学习技术，它通过知识蒸馏从大型教师网络向小型学生网络转移中间层特征，以加速训练并减少参数量。这种方法在多个数据集上进行了验证，包括CIFAR-10和MNIST等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/1412.6550
github地址：https://github.com/adri-romsor/FitNets

这篇文章提出一种设置初始参数的算法，目前很多网络的训练需要使用预训练网络参数。对于一个thin但deeper的网络的训练，作者提出知识蒸馏的方式将另一个大网络的中间层输出蒸馏到该网络中作为预训练参数初始化网络。

Motivation

现有的top-performing的网络（论文2015年发表于ICLR）通常都很deep且wide，这使得参数参数量非常大且难训练，inference time也相对较长。但深度的确对网络的训练起到效果，对特征的拟合效果更好。因此，作者提出训练thin且deep的网络的方法。

Methods

首先，论文使用Hinton提出的基于softmax改造的知识蒸馏作为基础，引入中间层输出作为学生网络训练的引导，类似于基于feature map的知识蒸馏。其整体框架如下图所示：

首先选择待蒸馏的中间层（即teacher的Hint layer和student的Guided layer），如图中绿框和红框所示。由于两者的输出尺寸可能不同，因此，在guided layer后另外接一层卷积层，使得输出尺寸与teacher的hint layer匹配。

接着通过知识蒸馏的方式训练student网络的guided layer之前的所有层，使得student网络的中间层学习到teacher的hint layer的输出，其损失函数为所加卷积层的输出与hint layer的输出的L2Norm：
loss
在选择中间层时作者提出应该选择较靠前的层，因为随着层数的增加，所含信息量越多，单纯地使得输出相同可能造成网络过拟合。

在训练好guided layer之前的层后，将当前的参数作为网络的初始参数，利用知识蒸馏的方式训练student网络的所有层参数，使student学习teacher的输出。由于teacher对于简单任务的预测非常准确，在分类任务中近乎one-hot输出，因此为了弱化预测输出，使所含信息更加丰富，作者使用Hinton等人提出的softmax改造方法，即在softmax前引入 $\tau$ 缩放因子，将teacher和student的pre-softmax输出均除以 $\tau$ 。此时的损失函数为：
loss2
第一部分为student的输出与groundtruth的交叉熵损失，第二部分为student与teacher的softmax输出的交叉熵损失。 $\lambda$ 用于调节两个交叉熵的权重比。