MobileViT详解：轻型，通用，移动友好的视觉变压器

最新推荐文章于 2024-07-19 23:44:59 发布

sjx_alo

最新推荐文章于 2024-07-19 23:44:59 发布

阅读量1.4k

点赞数 1

分类专栏：机器视觉深度学习文章标签：深度学习计算机视觉目标检测 pytorch transformer

本文链接：https://blog.csdn.net/qq_36758270/article/details/131036648

版权

深度学习同时被 2 个专栏收录

108 篇文章 13 订阅 ¥199.90 ¥299.90

订阅专栏

超级会员免费看

机器视觉

57 篇文章 9 订阅

订阅专栏

MobileViT结合了CNN的局部表达和Transformer的全局建模能力，提出了一种轻量、通用且适合移动设备的视觉 transformer 模型。它在保持高效的同时，提升了模型在图像分类和目标检测等任务上的性能。MobileViT通过MobileViT Block和MV2 Block实现了CNN与Transformer的融合，降低了Transformer的计算复杂度，提高了模型的精度和鲁棒性。

摘要由CSDN通过智能技术生成

0. 引言

轻量级卷积神经网络(CNN) 在图像领域得到了广泛的应用。他们的空间归纳偏差使他们能够在不同的视觉任务中学习参数更少的表征。然而，这些网络在空间上是局部的。为了学习全局表征，采用了基于自注意的视觉变换(ViTs)。与CNN不同，ViT 是重量级的。
因此，作者提出了MobileViT网络，将 CNN 和 ViT 的优势结合起来。在轻量的基础上具有可以处理全局信息的能力。
实验结果表明：在不同的任务和数据集上，MobileViT明显优于基于cnn和viti的网络。在ImageNet-1k数据集上，MobileViT在约600万个参数下达到了78.4%的前1准确率，在相同数量的参数下，比MobileNetv3(基于CNN)和 DeIT (基于ViT)的准确率分别提高了3.2%和6.2%。在MS-COCO目标检测任务上，对于相似数量的参数，MobileViT比MobileNetv3的准确率高5.7%。