resnet50能用cpu跑吗_用最简单的方式训练史上最强ResNet-50，性能超过魔改结构的ResNeSt...

最新推荐文章于 2024-04-01 14:48:38 发布

霏阳

最新推荐文章于 2024-04-01 14:48:38 发布

阅读量1.4k

点赞数

文章标签： resnet50能用cpu跑吗

本文链接：https://blog.csdn.net/weixin_42519253/article/details/112956212

版权

CMU的研究人员通过MEAL V2技术报告，展示了如何在不改变ResNet-50结构和不使用额外数据的情况下，仅用8卡TITAN Xp提升ImageNet Top-1精度至80%以上，超越ResNeSt等复杂结构。该方法基于知识蒸馏，通过集成多个教师网络的监督信号，简化训练过程，且不需要常见的训练技巧。

摘要由CSDN通过智能技术生成

近日，CMU 的研究人员在 arXiv 上放出了一份技术报告，介绍他们如何通过蒸馏(distillation)训练一个强大的小模型。所提出方法使用相同模型结构和输入图片大小的前提下，在 ImageNet 上的性能远超之前 state-of-the-art 的 FixRes 2.5% 以上，甚至超过了魔改结构的 ResNeSt 的结果。

这也是第一个能在不改变 ResNet-50 网络结构和不使用外部训练数据的前提下，将 ImageNet Top-1 精度提升到 80% 以上的工作，同时对训练要求也不是很高，一台 8 卡 TITAN Xp 就可以训练了。

论文标题：

MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks

论文链接：

代码链接：

在介绍这个工作之前，首先要简单回顾一下它的最初版本 MEAL，其基本的也是核心的思想是将多个 teacher 网络的知识通过蒸馏的方式压缩进一个 student 里面，同时它提出使用辨别器(discriminators)作为正则模块(regularization)防止 student 的输出跟 teacher 过于相像，从而防止 student 过拟合到训练集上。

MEAL 当时在 ImageNet 上就取得了 78.21% 的结果，超过原版 ResNet-50 1.7% 个点。MEAL V2 跟 MEAL 最大的区别在于监督信号的产生方式，如下图：

具体而言，MEAL 在每次训练迭代的时候会通过一个 te