RepViT（2024 CVPR）

最新推荐文章于 2025-03-20 20:33:28 发布

刘若里

最新推荐文章于 2025-03-20 20:33:28 发布

阅读量2.5k

点赞数 60

分类专栏：论文阅读文章标签：学习笔记网络计算机视觉人工智能

本文链接：https://blog.csdn.net/Liuruoli4878/article/details/145611763

版权

论文标题	RepViT: Revisiting Mobile CNN From ViT Perspective
论文作者	Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
发表日期	2024年09月16日
GB引用	> Wang Ao, Chen Hui, Lin Zijia, et al. RepViT: Revisiting Mobile CNN From ViT Perspective[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2024: 15909-15920.
DOI	10.1109/CVPR52733.2024.01506

论文地址：https://arxiv.org/pdf/2307.09283

摘要

本文研究了从视觉Transformer（ViT）的角度重新设计轻量级卷积神经网络（CNN），提出了一种新的纯轻量级CNN模型RepViT。通过整合轻量级ViTs的高效架构设计，RepViT在多个视觉任务中表现出优越的性能和较低的延迟。实验表明，RepViT在ImageNet上达到了超过80%的top-1准确率，仅需1.0毫秒的延迟。此外，RepViT与SAM结合后，其推理速度比先进的MobileSAM快近10倍，同时保持了显著的零样本迁移能力。RepViT展示了纯轻量级CNN在移动设备上的巨大潜力，并有望成为未来研究的基准。

全文摘要

论文标题《RepViT: Revisiting Mobile CNN From ViT Perspective》探讨了在资源有限的移动设备上设计高效轻量化模型的重要性。近年来，轻量化的视觉变换器（ViT）在各种视觉任务中表现出了优越性能，但由于参数数量大和高延迟，这使得它们不适合移动设备。相对而言，轻量化卷积神经网络（CNN）在计算速度和设备优化方面具有优势。因此，作者提出了一种融合ViT架构设计的新轻量化CNN系列模型，命名为RepViT。

主要结论包括：

改进架构设计：RepViT在传统轻量化CNN（如MobileNetV3）的基础上，逐步引入了ViT的高效架构设计元素，从而提升了性能和效率。这种改进使RepViT在多项视觉任务中超越了现有的轻量级ViT和CNN。
性能优势：在ImageNet数据集上，RepViT实现了超过80%的顶级准确率，并在iPhone12上仅需1.0毫秒的延迟。这是轻量化模型首次达成此类性能指标。此外，RepViT-SAM模型在处理速度上比当前先进的MobileSAM快近10倍。
结合多项视野任务：研究表明，RepViT不止在图像分类上表现优越，还在目标检测、实例分割和语义分割等多种计算机视觉任务中展现了良好的性能。

论文的独特之处在于它通过将轻量化CNN与ViT设计原理结合，重新审视了CNN的架构设计，展示了轻量化CNN在移动设备部署中的光明前景，为后续轻量化模型的研究提供了强有力的基线。整体而言，RepViT不仅提升了轻量化CNN的表现，还推动了低功耗视觉模型的实际应用潜力。

研究问题

轻量级 ViT 的架构设计能否增强移动设备轻量级 CNN 的性能？

研究方法

实验研究： 通过逐步“现代化”MobileNetV3-L的架构，并结合轻量级ViTs的高效设计，最终形成了一种新的纯轻量级CNN，即RepViT。

混合方法研究： 在RepViT的设计过程中，结合了轻量级ViTs的结构设计，如MetaFormer块结构，以及轻量级CNN的传统模块，如深度可分离卷积。

定量研究： 通过对各种模型参数、延迟、准确率等指标进行对比分析，展示了RepViT在不同视觉任务上的优越性能和低延迟。

系统分析： 研究了从块设计到宏观设计再到微观设计的不同层次，系统地优化了MobileNetV3-L的架构，最终形成了RepViT模型。

比较研究： 通过将RepViT与其他现有模型（如MobileViT、EfficientFormer等）进行对比，展示了RepViT在准确率和延迟方面的优势。

研究思路

该研究旨在利用轻量级ViTs中的高效架构设计来“现代化”标准轻量级CNN（如MobileNetV3），并探讨其在移动设备上的表现。考虑到CNN在移动设备上具有更好的硬件优化和更低的延迟，研究者们重新审视了传统CNN的设计，从ViTs的视角出发，通过整合轻量级ViTs的设计理念来提升轻量级CNN的性能。

理论框架

模型理论基础：论文的理论框架主要基于轻量级ViTs的设计原则，包括分离的通道混合器和令牌混合器结构、结构重参数化（Structural Re-parameterization）、以及不同的块结构（MetaFormer）。这些理论基础为设计新的RepViT模型提供了支持，使之能够显著减少模型的延迟并提高准确性。

具体方法和技术路线：

延迟测量：论文采用真实设备（例如iPhone12）进行模型延迟的测量，而不仅仅依赖于浮点运算（FLOPs）等理论指标。
训练食谱对齐：Aligning的训练公式与轻量级ViTs一致，使用了AdamW优化器和余弦学习率调度器，以确保比较的公正性。
块设计优化：将MobileNetV3中的块结构进行分离式重组，特别是移除与ViT中不同的混合器结构，通过改进后的RepViT块实现了更低的延迟，并在某些情况下牺牲了一定的准确性。
宏观架构优化：在整体架构设计上，引入了早期卷积（Early Convolutions）以减少输入图像的复杂预处理，采用深度下采样层以保持信息，从而缓解模型的调优敏感性。
微观设计调整：通过优化卷积核尺寸和SE层的放置，确保在保证性能的同时降低延迟。

方法

在本节中，我们从标准轻量级卷积神经网络 (CNN) 即 MobileNetV3-L 开始，并通过融合轻量级视觉 Transformer 的架构设计来逐渐对其进行现代化。首先，在第 3.1 节介绍用于衡量移动设备上延迟的度量方法，然后针对现有轻量级视觉 Transformer 对训练过程进行调整。基于一致的训练设置，我们在第 3.2 节探索最佳块的设计。我们在第 3.3 节进一步优化 MobileNetV3-L 在移动设备上的性能，即主干、下采样层、分类器以及总体阶段比率等宏观架构元素。然后我们在第 3.4 节对轻量级 CNN 进行逐层微调设计。图 2 展示了每个步骤中的完整流程及所实现的结果。最后，在第 3.5 节获得一个专门针对移动设备设计的新纯轻量级 CNN 家族，名为 RepViT。所有模型都在 ImageNet-1K 上进行了训练和评估。

延迟度量。先前的工作[5,57]根据浮点运算（FLOPS）或模型大小等指标优化了模型的推理速度。然而，这些指标与移动应用程序中的真实世界延迟的相关性并不好[36]。因此，如[35,36,46,60]所述，我们使用实际设备上的延迟作为基准度量。这种策略可以提供更准确的性能评估，并在现实世界的移动设备上对不同模型进行公平比较。实践中，我们使用iPhone 12作为测试设备，并使用Core ML工具包[1]作为编译器，如[35,36,60]所示。此外，为了避免不受支持的功能，我们在MobileNetV3-L模型中使用GeLU激活，如[36,60]所述。

我们测量MobileNetV3-L 的延迟为1.01毫秒。

对齐训练方案。最近轻量级ViTs [35、36、46、49]通常采用DeiT[58]的训练方案。具体来说，它们使用AdamW优化器[42] 和余弦学习率调度程序来训练模型，从头开始训练了 300 个 epoch，使用了 RegNetY-16GF[51]作为教师来进行蒸馏。此外，他们还采用了 Mixup[72]、auto-augmentation[8] 和随机擦除[77] 进行数据增强。同时还采用了标签平滑（Label Smoothing）[56] 作为正则化方案。为了公平比较，我们调整了 MobileNetV3-L 的训练配方，使其与现有的轻量级 ViT 相匹配，但目前不包括知识蒸馏。因此，MobileNetV3-L 获得了 71.5% 的 top-1 准确率。