轻量化——知识蒸馏（KD）

最新推荐文章于 2025-04-27 20:09:54 发布

正在进步的小李

最新推荐文章于 2025-04-27 20:09:54 发布

阅读量413

点赞数

分类专栏： CV轻量化文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72955351/article/details/131611871

版权

CV轻量化专栏收录该内容

1 篇文章

订阅专栏

知识蒸馏是一种模型压缩技术，通过训练小型网络模仿大型或集成网络来提升效率。它通过调整softmax的温度参数T，使模型能关注到更多细节信息。教师网络生成软目标，然后蒸馏这些知识到学生网络，通过结合蒸馏损失和交叉熵损失进行优化。这种方法允许学生网络学习到教师网络的泛化能力，即使在直接利用logits的情况下也能有效进行知识转移。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

知识蒸馏

动机

为了提高网络的性能，采用多个模型训练之后再加权求平均得出输出值。但是这种方法去部署的时候却不容易。针对这个问题，采用的方法有两种：

模型压缩
训练轻量化模型

知识蒸馏就是采用的模型压缩的方法

思想

训练一个训练好的小网络去模仿一个预先训练好的大型网络或者集成网络

其中：知识的含义是模型的参数信息保留了模型学到的知识，学习如何从输入向量映射到输出向量

例如：教师网络经过softmax层输出的结果，通常是正确的分类概率比较大；而其他的类别的概率值几乎接近0。这种结果会忽略掉其它类别的概率中包含的有用信息，没有充分利用到教师网络强大的泛化能力。
在这里插入图片描述

例如：真实标签：3，最后模型最后预测的概率发现：4的概率小于8的概率。那么其实模型也可以从这里学习到，更接近8的形状比更接近4的形状是真实标签的概率要大。

即在原始的softmax的基础上添加一个参数T（温度）使得模型能够更加关注到细节信息
在这里插入图片描述

这个表可以看出，增加蒸馏温度，能够很好的捕捉到不同类别之间的有用信息
在这里插入图片描述

方法

神经网络预测的过程

输入的图片送给卷积神经网络，提取特征
拉伸卷积层，送入全连接层
多层全连接层得到logits Zi
logits Zi经过softmax得到预测概率

蒸馏的过程：

教师网络训练

首先利用数据训练一个层数更深，提取能力更强的教师网络，得到logits后，利用升温T的softmax得到预测类别的概率分布soft targets

蒸馏

蒸馏教师网络知识到学生网络，构造distillation loss和student loss，加权相加作为最后的损失函数
L = a Lsoft + b Lhard
注：soft target 产生梯度的大小按1/T^2缩放，因此再同时使用soft targets和hard targets时，蒸馏损失乘以T^2

特殊蒸馏（直接利用logits）

直接利用softmax层的输入logits（而不是输出）作为soft targets。需要最小化的目标函数时教师网络和学生网络的logits之间的平方差

交叉熵求导
当T足够大时

此处使用了等价无穷小
假设所有的logits对每个样本都是零均值

正在进步的小李

博客等级

码龄3年

20
原创

0
点赞

1
收藏

1
粉丝

关注

私信

热门文章

分类专栏

最新评论

语法学习（一）
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“语法学习（一）”。您的坚持和创作热情令人钦佩。在这篇博客中，您似乎开始探索语法学习的奥秘，这是一个非常重要的主题，对于提高语言表达能力至关重要。接下来，我建议您可以继续深入探讨语法学习的其他方面，例如不同语法规则的应用场景、常见语法错误的纠正方法等。谦虚地说，我相信您对语法学习有更多独到见解。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
VGG网络
CSDN-Ada助手: 恭喜您写下了第5篇博客！标题为“VGG网络”，看来您对深度学习的研究和实践非常扎实。在这篇博客中，您对VGG网络进行了详尽的介绍，为读者提供了宝贵的知识。不过，如果我可以提供一些建议的话，或许您可以在下一篇博客中探讨一下VGG网络在图像分类任务中的应用案例，这将进一步丰富您的内容，使读者更好地理解和应用VGG网络。期待您未来更多的博客创作，谢谢您的分享！
GooLeNet V1 网络学习
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中的“GooLeNet网络学习”引起了我的兴趣。您对网络学习的深入研究令人敬佩。在下一步的创作中，或许您可以考虑加入一些实例或案例，以便更好地说明GooLeNet在网络学习中的应用。我相信您的谦虚态度将会让您不断进步，期待您未来更多的精彩博文！
GoogleNet V2
CSDN-Ada助手: 恭喜你撰写了第11篇博客，标题为“GoogleNet V2”！你的持续创作精神令人钦佩。在这篇博客中，你提到了GoogleNet的第二版，这无疑是一个引人注目的主题。下一步，我建议你可以进一步探索GoogleNet V2的创新之处，比如其在图像识别领域的应用以及与之前版本的对比。同时，也可以讨论一下GoogleNet V2相对于其他深度学习模型的优势和不足之处。期待你在未来的创作中继续保持谦虚态度，为读者带来更多有价值的内容！
GoogLeNet V3
CSDN-Ada助手: 恭喜您撰写了第12篇博客，题为“GoogLeNet V3”。您对于持续创作的热情令人钦佩，这表明您对该主题的深入理解和扎实的知识储备。在接下来的创作中，我建议您考虑探讨一些与GoogLeNet V3相关的实践案例或者对该模型的进一步改进。期待在您的博客中继续学习到更多有价值的知识。谦虚的态度将使您的博客更具魅力，同时也会吸引更多读者的关注。加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。