#今日论文推荐#CCV 2022 | 首个快速知识蒸馏视觉框架：ResNet50 80.1%精度，训练加速30%

wwwsxn

已于 2022-09-02 21:46:37 修改

阅读量267

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

于 2022-09-02 21:46:06 首次发布

原文链接：https://www.aminer.cn/research_report/631204f77cb68b460f125656

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐#CCV 2022 | 首个快速知识蒸馏视觉框架：ResNet50 80.1%精度，训练加速30%

今天介绍一篇来自卡耐基梅隆大学等单位 ECCV 2022 的一篇关于快速知识蒸馏的文章，用基本的训练参数配置就可以把 ResNet-50 在 ImageNet-1K 从头开始 (from scratch) 训练到 80.1% (不使用 mixup，cutmix 等数据增强)，训练速度（尤其是数据读取开销）相比传统分类框架节省 16% 以上，比之前 SOTA 算法快 30% 以上，是目前精度和速度双双最优的知识蒸馏策略之一，代码和模型已全部开源。

知识蒸馏（KD）自从 2015 年由 Geoffrey Hinton 等人提出之后，在模型压缩，视觉分类检测等领域产生了巨大影响，后续产生了无数相关变种和扩展版本，但是大体上可以分为以下几类：vanilla KD，online KD，teacher-free KD 等。
最近不少研究表明，一个最简单、朴素的知识蒸馏策略就可以获得巨大的性能提升，精度甚至高于很多复杂的 KD 算法。但是 vanilla KD 有一个不可避免的缺点：每次 iteration 都需要把训练样本输入 teacher 前向传播产生软标签 (soft label)，这样就导致很大一部分计算开销花费在了遍历 teacher 模型上面，然而 teacher 的规模通常会比 student 大很多，同时 teacher 的权重在训练过程中都是固定的，这样就导致整个知识蒸馏框架学习效率很低。
针对这个问题，本文首先分析了为何没法直接为每张输入图片产生单个软标签向量然后在不同 iterations 训练过程中复用这个标签，其根本原因在于视觉领域模型训练过程数据增强的使用，尤其是 random-resize-cropping 这个图像增强策略，导致不同 iteration 产生的输入样本即使来源于同一张图片也可能来自不同区域的采样，导致该样本跟单个软标签向量在不同 iterations 没法很好的匹配。
本文基于此，提出了一个快速知识蒸馏的设计，通过特定的编码方式来处理需要的参数，继而进一步存储复用软标签（soft label），与此同时，使用分配区域坐标的策略来训练目标网络。通过这种策略，整个训练过程可以做到显式的 teacher-free，该方法的特点是既快（16%/30% 以上训练加速，对于集群上数据读取缓慢的缺点尤其友好），又好（使用 ResNet-50 在 ImageNet-1K 上不使用额外数据增强可以达到 80.1% 的精度）。

论文题目：A Fast Knowledge Distillation Framework for Visual Recognition
详细解读：https://www.aminer.cn/research_report/631204f77cb68b460f125656https://www.aminer.cn/research_report/631204f77cb68b460f125656
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐#CCV 2022 | 首个快速知识蒸馏视觉框架：ResNet50 80.1%精度，训练加速30%

今天介绍一篇来自卡耐基梅隆大学等单位 ECCV 2022 的一篇关于快速知识蒸馏的文章，用基本的训练参数配置就可以把 ResNet-50 在 ImageNet-1K 从头开始 (from scratch) 训练到 80.1% (不使用 mixup，cutmix 等数据增强)，训练速度（尤其是数据读取开销）相比传统分类框架节省 16% 以上，比之前 SOTA 算法快 30% 以上，是目前精度和速度双双最优的知识蒸馏策略之一，代码和模型已全部开源。
复制链接

扫一扫