知识蒸馏综述笔记

最新推荐文章于 2024-03-25 22:07:36 发布

东东要拼命

最新推荐文章于 2024-03-25 22:07:36 发布

阅读量1k

点赞数 1

分类专栏：小陈读paper系列文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_68308828/article/details/129114969

版权

小陈读paper系列专栏收录该内容

31 篇文章 1 订阅

订阅专栏

知识蒸馏是一种将大型复杂模型（教师模型）的知识转移至小型高效模型（学生模型）的技术。它涉及到软目标、暗知识、特征模仿和关系学习等方面，旨在提高学生模型的泛化能力和性能。知识蒸馏可以应用于模型压缩、多任务学习和跨模态学习等领域，同时也存在挑战，如选择最佳的知识形式和结合方式。

摘要由CSDN通过智能技术生成

知识蒸馏的目的将学习能力强的复杂教师模型中的“知识”迁移到简单的学生模型中

1.知识蒸馏的背景知识

2.解释知识蒸馏的作用机制

3.归纳知识蒸馏中知识的不同形式

4.详细分析和对比了知识蒸馏的各种关键方法，

5.介绍知识蒸馏与其它技术融合、

6.对知识蒸馏在多个不同领域下的应用场景进行了详细的阐述

7.知识蒸馏存在的挑战和未来的研究方向

模型压缩是

教师网络在相同的带标签的数据集上指导学生网络的训练

来获得简单而高效的网络模型

如何区分呀

‘ 看标签’ 如果都是有标签的样本则为模型压缩

如果教师网络没有样本学生网络有样本其实是可以提高学生的复杂性能则为模型增强

知识蒸馏与迁移学习的四点区别

1.用的数据域不同，知识蒸馏用的是相同的数据集

而迁移学习用的是不同领域的数据集考察的是model的泛化性能

2.网络结构不同

迁移学习用的是相同的一个网络跑不同的数据集

知识蒸馏的两个网络可以是两个一样的也可以不一样

3，学习方式也不一样

迁移学习是可以把其他领域的知识也就是所谓的权重也就是所谓的预训练放到测试的model上

而蒸馏学习是不会直接使用学过来的权重的

与知识蒸馏思想最为接近的工作是 Bucilu 等人 [8] 在 2006 年提出的“模型压缩” (Model Compression)，它通过学习较大但性能更好模型的近似特征来获得轻量级的网络模型.

06年提出模型压缩

逻辑单元是 Softmax 激活的前一层

类概率是逻辑单元通过 Softmax 激活函数转化而来

softmax 的前一层可能包含噪声信息

而这些噪声信息就会导致学生过拟合

从而泛化能力下降

主要是softmax 太直男了哈哈

不够温柔

知识蒸馏 Knowledge distillation（学习笔记）_：）�东东要拼命的博客-CSDN博客

可以看我这一篇讲的很详细

解决办法就是 Hinton老爷子提出的蒸馏温度

让softmax温柔一些哈哈

较大 T 值的软目标差异比 T =1 时的差异小，模

型训练时会对较小的逻辑单元给予更多的关注，从

而 使学生模型学习到这些负样本和正样本之间的关

系信息 . Hinton 等人 [2] 将这样的蕴含在教师模型中

的关系信息称之为“暗知识” (Dark Knowledge) ，而

知识蒸馏就是在训练过程中将教师模型的“暗知识”

传递到学生模型中.

这段话很重要好好看好好学

说人话就是在训练阶段将softmax尽可能的软化一些，

这样学生就能学到更多的细节

这个细节指的是

而这些稍微明显的高低的关系就是所谓的暗知识

而这个解决了之前的难题老师跟我说解决这个词不能乱用我觉得这里更加适合提升

只能说知识蒸馏真不错

知识蒸馏的作用机制

知识蒸馏为什么能行对吧哈哈

就第一句话这个软目标软知识丰富的知识给学生模型提供了正则化约束

而这个正则化还是双向挺好啊雨露均沾哈哈

软目标标签变得柔和了顺滑了术语叫标签平滑

而这个平滑就能防止过拟合从另一个角度来说就是模型泛化能力又强了

置信度惩罚说的是loss 与hard 目标

当然可以自己来嘛自己加个正则化又有何不可嘞

这个又是个好名字呀特权信息 6其实等价暗信息

从莫种意义上来说其实就是软目标的信息很丰富

这个软目标就是能告诉你枪往哪打教师能引导学生往哪里优化不停地迭代自己成为更好的自己

这个比喻很牛逼很高级

真的很卷好吗还嫌弃软目标的知识不够求知若渴的student model

一看就是一个好学生至于聪明不聪明哈哈不知道就是想学

扯远了输出特征知识答案

中间特征知识解题过程

关系特征知识解题方法

结构特征知识完整的知识体系理论知识

看看这格局至下而上的学习方式

看看这个中文表达这个结构特征一看就比这个关系特征牛

输出特征知识逻辑单元软目标教师模型的最终预测

复习一下逻辑单元

这里注意一下不同任务的输出特征知识是不同的

尤其是目标检测不仅有分类头还有检测头里面有着定位信息

教师给的软目标只能在学生深层的layer上指方向

也就是说学生自己提取特征的技术还得自学

所以在这个内卷的时代光学习深层的知识学生model还不知足

这是就需要学习中间特征知识这里指的是教学生怎么提取特征

因为

这个问题

所以提出

中间特征知识

来解决教师和学生模型在容量之间的代沟问题 gap

中间特征知识的主要思想

从教师中间的网络层中提取特征来充当

学生模型中间层输出的提示 (Hint)知识（信息）.这一过程就称之为中间特征的知识蒸馏

Hint learning

这里重要的是最早使用教师模型中间特征的是

[27] Romero A, Ballas N, Kahou S E, Chassang A, Gatta C, Bengio Y.
Fitnets: hints for thin deep nets//Proceedings of the 3rd Internati-onal Conference on Learning Representations. San Diego, USA,2015:1-13

这个十分重要非常重要

这个中间层的知识学习 1.可以逐层 2.可以隔层3. 甚至可以逐块

1.可以通过模仿学习例子可学习的投影矩阵和定义的注意力映射图

2. 通过共享网络直接利用教师的中间特征

很重要中间特征的知识蒸馏是要最小化教师与学生之间的中间特征映射距离

用到度量学习度量学习在知识蒸馏领域应用最广的是 KL散度

用于最小化教师与学生的model输出的相对概率分布

关系特征知识指的是教师模型不同层之间和不同数据样本之间的关系知识

第一阶段最小化师生间的FSP矩阵距离

第二阶段使用正常的分类损失来优化学生模型

FSP 矩阵是测量网络间的关系特征，

后续工作更强调样本的关系知识.

基于样本的角度关系和距离关系蒸馏.

其中的角度关系蒸馏用来测量

三个样本角度关系 .

基于关系的知识蒸馏分成三类

1.基于网络层的关系

1. 雅克比矩阵可以捕获网络层映射相似性

2.使用径向基函数计算层间的相关性

这两个方法不收师生网络结构的限制很适合学生model的模型压缩

2。基于样本间的关系

学习排名 Learning to rank

传递交叉样本的1.相似性知识来改善学生模型

还可以利用

2.相互关系知识

3.相关性知识

（还能借助于辅助技术，如通过图描述数据内部关系来实现样本关系的知识迁移）

优点优势

基于样本的关系知识蒸馏

不仅1.传递了单个样本的信息，

而且2.传输多个样本间的关系知识，

使学生模型形成与教师相同的关系.

3.相关任务的关系

包含的最广的怎么说来着

广度最大的是 结构特征知识

结构特征知识蒸馏是以互补的形式

利用多种知识

来促使学生的预测能包含和教师一样丰富的结构知识.

这里有点乱整理一下

结构化知识可以是样本特征 +样本间关系 +特征空间变换

可以是像素关系+像素间整体知识

可以是输出特征+中间特征+全局预测特征

可以借助对比学习找

可以借助生成对抗网络找（干现在的diffusion）来capture 结构化特征知识

当然对抗性学习还可以用来调整师生网络结构的全局预测

知识蒸馏的常见方法

1.知识合并

好多老师教你不同的科目你就可以同时处理多个任务孩子你真苦啊 studentmodel说我还能学，给我插上电源

有一种方法将多个教师模型的特征知识进行融合由融合得到的特征作为学生模型学习参数的指导

一个是将多个教师的特征压缩到紧凑且有区别的特征集

另一个是使用辅助模块来提取多个任务对应的特征

我也不知道我现在突然看不进去这一段

只能慢慢分析了

首先我们用到了一个共享网络层

这个共享网络层直接去学习多个教师model的特征

来达到一个目的实现多任务知识的合并是不是可以理解为多个不同领域知识的融合

而达到这个目的的操作是

把教师model的相应层？替换为学生model要学习的层学生要学的层不应该就是教师model的相应层这不是离谱

往下看使学生的网络块与相应的教师一起学习？？？满脸黑线教师model 还要学习？？？

下面举了一个例子学生将不同领域的融合知识投射到每个教师的专业领域知识

并以计算损失的方式更新学生模型的参数

这个例子讲的很清楚学生model将学到的融合知识投射到相应老师的相关领域来计算loss

其实就是学生学的好坏与训练时的指引至于中间这个描述真的好迷

2.多教师学习

这段话说的很好举出了知识合并和多教师学习的相同点与不同点

相同的是知识合并和多教师学习都是让学生model同时学习多个教师的知识

不同的是目的多教师相当于多个相同专业的老师教你让你对一个专业的理解加深在单任务上处理变强

知识合并是不同专业的老师教你目的是让你的高考的每一个科目都能同时处理并且拿高分

长期的教师信号提供了稳定的教师信息，保证了师生的差异，

而短期的教师信号则保证了高质量的教学.

3.教师助理

就这一段话吓我一跳还以为自己的创新点完蛋了还好只能说还没提及让我更坚信了自己的创新点的可行性只能说有点相似

[57] Mirzadeh S I, Farajtabar M, Li A, Levine N, Matsukawa A, Gha

semzadeh H. Improved knowledge distillation via teacher assis

tant//Proceedings of the AAAI Conference on Artificial Intel

ligence. New Orleans, USA, 2020, 34(04): 5191-5198

[58] Passalis N, Tzelepi M, Tefas A. Heterogeneous knowledge distill

ation using information flow modeling//Proceedings of the IEEE/

CVF Conference on Computer Vision and Pattern Recognition.

Seattle, USA, 2020: 2339-2348

[59] Gao M, Wang Y, Wan L. Residual error based knowledge distilla

tion. Neurocomputing, 2021(433): 154-161好好看好好学

4.跨模态蒸馏

可以给阳仔这个创新点

5.相互蒸馏

在线蒸馏好牛啊用的是 KL散度

看看都是啥 CVPR ICCV NIPS

6.终身蒸馏

还有啊个人觉得看文献综述的阶段不要那么执着于数学公式真的除非就是真的发那种全都是数学公式的顶刊不然真的没必要还有就是确定某一个具体方向那就应该深耕而不是全都钻进去时间真的很重要

θs 为网络的共享参数

θo 为旧任务参数

目的是增加一个新任务参数 θn

并让 θn 在新旧任务上都能获得高性能.

（通过缓存一小部分旧任务数据和产生旧任务相似的输出值或视觉模式都能使网络在学习新任务的同时保持旧任务性能. ）

7.自蒸馏

只能说自蒸馏很棒

思想很novalty

这里有跟我相关的Transform 多个层压缩到一个层

或者是引入自适应层

看了这么多从一开始就带有一个疑问那么哪种知识蒸馏方式最厉害嘞

答案是目前尚无定论哈哈

但是可以说得是

我们既然决定要整知识蒸馏了就要知道每种知识以及不同种类组合的知识的作用

1.基于特征的知识在模仿教师特征产生的过程

2.基于关系的知识用于捕获数据样本间网络层特征的关系结构化咋不提啦？

当教师模型与学生模型容量差别较小的时候（也小不到哪里去）

软目标就够用了

但基本上都是差别很大的时候比较多所以就要用将多种蒸馏的知识形式和方法结合起来来表示出教师model

读完这一段之后我能告诉你最优的是组合至于怎么组合组合什么知识什么技术目前尚无定论

知识其实是一个黑盒问题

这一段话指出了一个问题那么网络层之中或者样本间再或是输出的特征到底哪里的知识是最好的呀

首先我们知道教师模型和学生模型从直观上就是大小不一样

再深入认识之后那网络结构也肯定不一样

而至于教师网络中哪一层最具代表性也是一个知识蒸馏理论上的未知问题

还有要知道的是

关系蒸馏跟网络容量大小没有关系关系蒸馏仅仅获取的是网络层和样本间的关系并非容量差异gap 问题原因是知识也是个黑盒不可知嘛哈哈

这一段话说的是知识蒸馏与网络架构无关其实从另一层角度来看对科研小白比较友好

它无需大改网络只需要确定好一个教师模型 to find an excellent student model 就好

逻辑反推没有确定好老师就没办法找到好的学生控制变量

这个可太重要了

睁大眼睛好好学

老师教的好不好我们通常看学生考的高不高

而这里就是看student的performance （测试阶段）

而在训练阶段我们就要明确关于**问题我们需要采用**的损失函数来找到学生学的和老师教的最接近的情况

需要提前设计好 loss function

常见的有三种

1.余弦相似（缺点就是会使得教师和student的随机分布上的相似度非对称）

2.KL散度（缺陷是不能考虑到向量的大小优点是突出了两个向量方向上的差异）

3.MSE（在高位特征并不明显，很容易被随机特征混淆）

这一段告诉大家知识蒸馏很厉害很值得搞探究

它融合了模型压缩模型增强牛得不得了

最后感谢写这篇综述的peer 让我这科研小白再次了解一个新的field

感谢

东东要拼命

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
知识蒸馏综述笔记

知识蒸馏中文综述笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东东要拼命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。