图像任务知识蒸馏调研（知识蒸馏一）

Man in Himself

已于 2022-11-16 19:41:45 修改

阅读量3.1k

点赞数 1

分类专栏：医疗图像文章标签：计算机视觉人工智能

于 2022-11-11 17:43:41 首次发布

本文链接：https://blog.csdn.net/weixin_42939529/article/details/127802135

版权

医疗图像专栏收录该内容

13 篇文章

订阅专栏

图像任务知识蒸馏调研（知识蒸馏一）

图像任务知识蒸馏调研（知识蒸馏一）

图像任务知识蒸馏调研（知识蒸馏一）

最近引文研究需要，针对知识蒸馏在图像生成相关任务中的使用进行了一些调研，在这里总结成果。

Image Super-Resolution Using Knowledge Distillation(ACCV 2018)

比较早的使用知识蒸馏进行图像超分的工作，主要特点如下：

使用多层次知识蒸馏，用小网络蒸馏大网络，减少消耗（学生网络维MobileNet）
试验了不同的知识蒸馏方法，评估它们的效果

文章思路很简洁，适合初步了解知识蒸馏的应用。

方法

网络结构
可以看到选择了三个不同层次的输出进行蒸馏，提高效率。
另外，根据以往研究，评估特征统计图的相似性要胜过直接评估特征本身的相似性，因此在进行蒸馏前，模型的输出经过了一个映射，将不同通道的信息压缩得到统计信息：
特征映射
作者选择了不同的G，得到的就是不同的方法（都是再Channel维度）：

直接求平均后取幂
先取幂再求平均
取最大值
取最小值

最后结果是求平均后取二次幂效果最好。
不同蒸馏方法

Data-Free Knowledge Distillation For Image Super-Resolution(CVPR 2021)

数据蒸馏作为有效的压缩模型大小的方法已经得到了广泛应用，然而经典的蒸馏方法需要额外的训练数据用于微调模型，这在某些情况下难以做到，因此有了“data-free compression”的方式，主要的思路是根据模型来反向获得训练数据，然而这对于图像识别相关的任务有效，对于超分辨率等需要精确数据的任务来说却并不适用。文章提出的整体的模型如下所示：
整体模型

训练样本生成

作者仍然是根据教师模型训练生成器来生成训练样本，但是和以往工作不同，在超分任务中对于样本的约束超分任务的，也就是要保持降采样一致性，损失函数如下：
损失函数1
其中 $\mathcal{G}$ 为生成器， $z$ 为随机向量， $\mathcal{T}$ 为教师模型， $\mathcal{R}$ 为降采样（相当于超分的逆操作）。

同时为了保证样本多样性，引入类似GAN的对抗损失，该函数本身和知识蒸馏相反，目的是让教师模型和学生模型对样本的结果尽量不同：
损失函数2
二者合并得到：
损失函数G

Progressive Distillation

损失函数采用经典的L1损失：
损失函数3
考虑到由于训练数据缺乏造成学生网络训练更加困难，作者选择了一种渐进式训练的方式，具体而言，就是先训练一个小网络 $\mathcal{S}_0$ ，然后不断往里面插入层再训练，再插入层，直到达到需要的层数。
损失函数S

完整的训练算法如下所示，基本上可以概括为：

知识蒸馏训练学生模型
训练生成器
重复1-2

部分实验结果

作者对VDSR，EDSR等模型做了蒸馏实验，在不同数据集上进行了测试，结果上看，作者的模型虽然不如在有训练数据的情况下训练的Student模型，但是显著好于Bicubic插值和使用随机Noise训练的Student模型，因此是有一定意义的：
VDSR实验结果
同时作者进行了消融实验，验证了提出方法的有效性，以及不同 $w_R$ 的影响：
消融实验1
消融实验2
作者还窥探了一下生成器生成的样本和Teacher超分的结果（三张单通道合并成一张RGB），反正我是看不出来有什么特殊的地方。。。让我怀疑随即用一些几何色块训练也可以有好结果。。。
生成样本

KD-MRI: A knowledge distillation framework for image reconstruction and image restoration in MRI workflow(MIDL2020)

这是（自称）第一篇将知识蒸馏用于磁共振重建的工作，作者使用DC-CNN的结构设计了Teacher和Student Network（比教师网络每个block的卷积层更少），并使用了基于attention的蒸馏损失和imitation loss（虽然这俩都不是作者原创就是了），取得了良好的效果。模型结构如下：

基于Attention的特征蒸馏

所谓基于Attention的特征蒸馏，实际上就是不仅仅将最终的输出作为蒸馏目标，也将网络中间层的关注点作为蒸馏目标，这在分类任务中已经被证明是有帮助的，而在image2image类型的回归任务中，这样的Attention Map更是能够直接提供关于最终生成样本的空间信息。

具体而言，对于某一层经过激活函数后的特征图 $\in R^{C\times H \times W}$ ，其Attention Map可以表示为（这和本文博客第一篇文章好像啊）：

在本文中，对Attention Map蒸馏的方法如下所示：
蒸馏损失
其中 $Q_S$ 和 $Q_T$ 就代表了学生和教师网络的Attention Map， $j$ 表示对应位置，本文中选择了每个block正中间那个（教师网络五层卷积的第三个，学生网络三层卷积的第二个）卷积层的输出，并在附录中对不同位置的效果做了验证。