【知识蒸馏】带你认识深度学习中的知识蒸馏（一）

最新推荐文章于 2024-08-23 09:06:53 发布

mjiansun

最新推荐文章于 2024-08-23 09:06:53 发布

阅读量1.7k

点赞数 3

分类专栏：论文笔记

原文链接：https://www.jianshu.com/p/88b99bf14572

版权

论文笔记专栏收录该内容

87 篇文章 20 订阅

订阅专栏

摘要：知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法

一、知识蒸馏入门

1.1 概念介绍

知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。最早是由Hinton在2015年首次提出并应用在分类任务上面，这个大模型我们称之为teacher（教师模型），小模型我们称之为Student（学生模型）。来自Teacher模型输出的监督信息称之为knowledge(知识)，而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。

1.2 知识蒸馏的种类

图1 知识蒸馏的种类

1、离线蒸馏

离线蒸馏方式即为传统的知识蒸馏，如上图（a）。用户需要在已知数据集上面提前训练好一个teacher模型，然后在对student模型进行训练的时候，利用所获取的teacher模型进行监督训练来达到蒸馏的目的，而且这个teacher的训练精度要比student模型精度要高，差值越大，蒸馏效果也就越明显。一般来讲，teacher的模型参数在蒸馏训练的过程中保持不变，达到训练student模型的目的。蒸馏的损失函数distillation loss计算teacher和student之前输出预测值的差别，和student的loss加在一起作为整个训练loss，来进行梯度更新，最终得到一个更高性能和精度的student模型。

2、半监督蒸馏

半监督方式的蒸馏利用了teacher模型的预测信息作为标签，来对student网络进行监督学习，如上图（b）。那么不同于传统离线蒸馏的方式，在对student模型训练之前，先输入部分的未标记的数据，利用teacher网络输出标签作为监督信息再输入到student网络中，来完成蒸馏过程，这样就可以使用更少标注量的数据集，达到提升模型精度的目的。

3、自监督蒸馏

自监督蒸馏相比于传统的离线蒸馏的方式是不需要提前训练一个teacher网络模型，而是student网络本身的训练完成一个蒸馏过程，如上图（c）。具体实现方式有多种，例如先开始训练student模型，在整个训练过程的最后几个epoch的时候，利用前面训练的student作为监督模型，在剩下的epoch中，对模型进行蒸馏。这样做的好处是不需要提前训练好teacher模型，就可以变训练边蒸馏，节省整个蒸馏过程的训练时间。

1.3 知识蒸馏的功能

1、提升模型精度

用户如果对目前的网络模型A的精度不是很满意，那么可以先训练一个更高精度的teacher模型B（通常参数量更多，时延更大），然后用这个训练好的teacher模型B对student模型A进行知识蒸馏，得到一个更高精度的模型。

2、降低模型时延，压缩网络参数

用户如果对目前的网络模型A的时延不满意，可以先找到一个时延更低，参数量更小的模型B，通常来讲，这种模型精度也会比较低，然后通过训练一个更高精度的teacher模型C来对这个参数量小的模型B进行知识蒸馏，使得该模型B的精度接近最原始的模型A，从而达到降低时延的目的。

3、图片标签之间的域迁移

用户使用狗和猫的数据集训练了一个teacher模型A，使用香蕉和苹果训练了一个teacher模型B，那么就可以用这两个模型同时蒸馏出一个可以识别狗，猫，香蕉以及苹果的模型，将两个不同与的数据集进行集成和迁移。

图2 图像域迁移训练

4、降低标注量

该功能可以通过半监督的蒸馏方式来实现，用户利用训练好的teacher网络模型来对未标注的数据集进行蒸馏，达到降低标注量的目的。

1.4 知识蒸馏的原理

图3 知识蒸馏原理介绍

一般使用蒸馏的时候，往往会找一个参数量更小的student网络，那么相比于teacher来说，这个轻量级的网络不能很好的学习到数据集之前隐藏的潜在关系，如上图所示，相比于one hot的输出，teacher网络是将输出的logits进行了softmax，更加平滑的处理了标签，即将数字1输出成了0.6（对1的预测）和0.4（对0的预测）然后输入到student网络中，相比于1来说，这种softmax含有更多的信息。好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据。所以蒸馏的目标是让student学习到teacher的泛化能力，理论上得到的结果会比单纯拟合训练数据的student要好。另外，对于分类任务，如果soft targets的熵比hard targets高，那显然student会学习到更多的信息。最终student模型学习的是teacher模型的泛化能力，而不是“过拟合训练数据”