近日,CMU 的研究人员在 arXiv 上放出了一份技术报告,介绍他们如何通过蒸馏(distillation)训练一个强大的小模型。所提出方法使用相同模型结构和输入图片大小的前提下,在 ImageNet 上的性能远超之前 state-of-the-art 的 FixRes 2.5% 以上,甚至超过了魔改结构的 ResNeSt 的结果。
这也是第一个能在不改变 ResNet-50 网络结构和不使用外部训练数据的前提下,将 ImageNet Top-1 精度提升到 80% 以上的工作,同时对训练要求也不是很高,一台 8 卡 TITAN Xp 就可以训练了。
论文标题:
MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks
论文链接:
代码链接:
在介绍这个工作之前,首先要简单回顾一下它的最初版本 MEAL,其基本的也是核心的思想是将多个 teacher 网络的知识通过蒸馏的方式压缩进一个 student 里面,同时它提出使用辨别器(discriminators)作为正则模块(regularization)防止 student 的输出跟 teacher 过于相像,从而防止 student 过拟合到训练集上。
MEAL 当时在 ImageNet 上就取得了 78.21% 的结果,超过原版 ResNet-50 1.7% 个点。MEAL V2 跟 MEAL 最大的区别在于监督信号的产生方式,如下图:
具体而言,MEAL 在每次训练迭代的时候会通过一个 te