前言
论文地址:https://arxiv.org/abs/2106.05237
- google的文章向来是不差钱,这篇文章也是如此,把ImageNet1k数据集的蒸馏做到了1W epoch,而且还做了大量的对比实验。虽然无法复现,不过能直接用结论也是ok的。
- 量化裁剪和蒸馏是模型轻量化三板斧,裁剪可能会带来通道不平衡的问题,量化的收益稳定,这篇文章主要是对蒸馏展开研究。
- 作者发现,只要给蒸馏足够的时间,他是能带来足够的惊喜的,最终只是基于该数据集,将ResNet50在ImageNet1k上的结果刷到了82.8%。
实验设置
简单起见,作者主要分析了以下4种蒸馏的方式
- fixed teacher:对于同一张图像,student会对图像做random crop,teacher对图像做center crop,这样的话,同一张图像的teacher prediction是完全固定的,这个也就是noisy student的做法
- independent noise:teacher和student对同一张图像分别做随机crop,生成预测结果ÿ