论文讲解：Knowledge distillation: A good teacher is patient and consistent

最新推荐文章于 2023-12-14 20:08:10 发布

littletomatodonkey

最新推荐文章于 2023-12-14 20:08:10 发布

阅读量1.2k

点赞数 1

分类专栏：知识蒸馏计算机视觉论文-训练技巧-工具图像处理文章标签：知识蒸馏深度学习图像分类模型轻量化 PaddlePaddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012526003/article/details/120900023

版权

知识蒸馏同时被 3 个专栏收录

12 篇文章 17 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

计算机视觉论文-训练技巧-工具

6 篇文章 1 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

10 篇文章 0 订阅

订阅专栏

本文深入探讨了知识蒸馏在深度学习中的应用，特别是针对图像分类任务。通过实验，作者发现耐心且一致的教学（consistent teaching）方法能有效提升模型性能，避免过拟合。长期训练和合适的数据增强策略也能显著提高蒸馏效果。此外，预训练模型初始化虽有助于初期收敛，但随机初始化在长时间训练后可能表现更优。最后，即使在‘out-of-domain’数据上进行蒸馏，也能带来一定提升，但需要更长的训练时间。

摘要由CSDN通过智能技术生成

前言

论文地址：https://arxiv.org/abs/2106.05237

google的文章向来是不差钱，这篇文章也是如此，把ImageNet1k数据集的蒸馏做到了1W epoch，而且还做了大量的对比实验。虽然无法复现，不过能直接用结论也是ok的。
量化裁剪和蒸馏是模型轻量化三板斧，裁剪可能会带来通道不平衡的问题，量化的收益稳定，这篇文章主要是对蒸馏展开研究。
作者发现，只要给蒸馏足够的时间，他是能带来足够的惊喜的，最终只是基于该数据集，将ResNet50在ImageNet1k上的结果刷到了82.8%。

实验设置

简单起见，作者主要分析了以下4种蒸馏的方式

fixed teacher：对于同一张图像，student会对图像做random crop，teacher对图像做center crop，这样的话，同一张图像的teacher prediction是完全固定的，这个也就是noisy student的做法
independent noise：teacher和student对同一张图像分别做随机crop，生成预测结果ÿ

了解本专栏

超级会员免费看

littletomatodonkey

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

littletomatodonkey 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。