轻量化网络结构MobileViT

最新推荐文章于 2025-02-26 07:41:51 发布

watersink

最新推荐文章于 2025-02-26 07:41:51 发布

阅读量3.2k

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_14845119/article/details/120851045

版权

深度学习专栏收录该内容

56 篇文章

订阅专栏

MobileViT是作者在2021年提出的一种新型网络结构，它将Transformer融入MobileNetV2，旨在创建适用于移动设备的轻量级视觉模型。与传统的ViT不同，MobileViT不需要大量数据增强，且在ImageNet-1k上表现出优于MobileNetV3和DeiT的性能。MobileViT设计兼顾轻量化、通用性和低延迟，解决了Transformer缺乏局部特征的问题。通过多尺度采样训练策略，模型能获得更好的多尺度表达能力。实验结果显示，MobileViT在分类、检测和分割任务上均有出色表现，并且在速度上虽慢于CNN，但提供了更高的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文： MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

Github：https://github.com/chinhsuanwu/mobilevit-pytorch

2021，苹果公司

传统的视觉 transformers（ViTs），主要是在transformer中嵌入cnn，而本文基于在cnn中嵌入transformers，即在mobilenetv2中嵌入transformer，提出了轻量化的网络结构MOBILEVIT。最终在 ImageNet-1k 上达到78.4%的top-1准确性，比 MobileNetv3高出 3.2%，比 DeIT高出6.2%。在 MS-COCO检测任务上， MobileViT比MobileNetv3高出5.7%。

is it possible to combine the strengths of CNNs and ViTs to build a light-weight and low latency network for mobile vision tasks?

传统的ViTs需要大量的训练数据，大量的数据增强（data augmentation）以及正则化（L2 regularization），在分割类型任务需要比较昂贵的解码模块。而本文提出的MobileViT只需要正常简单的数据增强即可，不需要 CutMix，MixUp，Mosaic，DeIT-style等数据增强方式。

MobileViT主要的设计思想包括