卷积通用模型的剪枝、蒸馏---蒸馏篇--KD蒸馏（以deeplabv3+为例）

ghx3110

已于 2024-05-10 16:31:55 修改

阅读量455

点赞数

分类专栏：模型部署文章标签：剪枝蒸馏 deeplabv3+

于 2024-04-30 11:47:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41920323/article/details/138339707

版权

模型部署专栏收录该内容

53 篇文章 112 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

上篇文章介绍了剪枝篇，本文以上篇的剪枝模型为学生模型，以剪枝之前的模型为教师模型，进行KD逻辑蒸馏，之后会尝试特征蒸馏和关系蒸馏等，完整代码链接放在文末。
一、KD逻辑蒸馏
1.1 大致过程
逻辑蒸馏，是基于分类问题设计的，因此非常适用于语义分割。模型最后会有一个softmax层，其输出值对应了相应类别的概率值。在知识蒸馏时，已经有了一个泛化能力较强的Teacher模型，我们在利用Teacher模型来蒸馏训练Student模型时，可以直接让Student模型去学习Teacher模型的泛化能力。一个很直白且高效的迁移泛化能力的方法就是：使用softmax层输出的类别的概率来作为“Soft-target”，对比Student模型的输出逐渐的向Teature模型靠近。
1.2 Softmax
关于分类问题，就会想到softmax（一个向量中的每一个分量先求指数，然后求所有分量指数分和，指数/和得到一个新的分量，组成新的向量，和为1），蒸馏中的softmax也是这样的处理思路，只是加了一个温度指数T，将e的指数再除以T；
1.3 蒸馏过程
在这里插入图片描述
step1、首先训练大模型（a），softmax(1),得到一个输出(0.97,0.029,0.001)；

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
卷积通用模型的剪枝、蒸馏---蒸馏篇--KD蒸馏（以deeplabv3+为例）

本文以deeplabv3+为例，先剪枝，然后使用KD蒸馏训练。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ghx3110 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。