【文献解读】“MOBILEViT：轻量级、通用目的、移动友好的视觉变换器”。-CSDN博客

本文链接：https://blog.csdn.net/qq_60245590/article/details/135543007

今天阅读这篇2022年ICLR会议上发表的论文，主要是为了学习MobileViT模型，用于YOLO模型主干改造。

讨论了在视觉任务中使用CNNs和ViTs的对比和潜在的改进。

文档引用了多位研究人员和他们的工作，例如 Dosovitskiy et al., 2021; Vaswani et al., 2017; Touvron et al., 2021a; Howard et al., 2019; Raffel et al., 2021; Xiao et al., 2021; Wang et al., 2021; Devlin et al., 2018等。
内容简述：
- 讨论了自注意力模型，特别是视觉变换器（ViTs），作为卷积神经网络（CNNs）的替代方案来学习视觉表示。
- 指出ViTs使用多头自注意力来学习表示，而CNNs则具有空间归纳偏差，允许它们学习具有少量参数的表示。
- 提到ViTs在某些任务上的性能比轻量级CNNs差，特别是在参数数量受限时。
- 强调了设计轻量级ViT模型的重要性，因为即使对于需要快速反应的任务，ViTs的模型大小和执行速度也是关键因素。
- 讨论了尽管轻量级CNNs在许多移动视觉任务上表现出色，但ViT基于网络在与任务相关的网络集成方面仍然沉重。
- 引述了对混合方法的需求，这种方法结合了CNNs和变换器的优势，以解决ViT模型中的参数数量问题。

图示：
- (a) 显示了标准视觉变换器（ViT）的结构图。过程开始于将图像分割成小块，然后通过线性层，接着是位置编码和变换器层，最后通过另一个线性层生成Logits。
- (b) 展示了MobileViT的结构，其中Conv-n×n表示标准的n×n卷积，MV2代表MobileNetV2块。图中用箭头标记了执行下采样的块。
图表：
- 图1（Figure 1）标题为“Visual transformers vs. MobileViT”，对标准视觉变换器和MobileViT进行对比。
- 图2（Figure 2）展示了MobileViT与轻量级CNN后端（如MobileNetV1，MobileNetV2，MobileNetV3，MNASNet和MobileViT）相比，在任务级泛化性能方面的优势。图表显示了不同模型在MS-COCO数据集上的性能比较，MobileViT在这里显示了更好的性能。
文本内容：
- 简要讨论了视觉变换器（ViTs）和卷积神经网络（CNNs）的混合模型。指出这些混合模型虽然受到关注，但仍然较重，并且对数据增强敏感。例如，去除CutMix数据增强导致ImageNet准确率显著下降。

图片主要展示了MobileViT的设计和优势，以及它与传统CNNs和其他ViTs的性能比较。这些信息用于解释MobileViT如何提高效率，以及它在机器学习和计算机视觉领域的应用。

内容简述：
- 讨论了将CNNs和变换器的优势结合起来构建适用于移动视觉任务的模型的问题，强调了在移动设备上实现低延迟至关重要。
- 指出FLOPs（浮点运算次数）不足以表示移动设备上的延迟，因为它忽略了内存访问、并行度和平台特性等推理相关因素。
- 强调优化FLOPs而不是其他因素可能不足以实现低延迟的移动设备性能。
- 本文不是优化FLOPs，而是着重设计轻量级（第3.3节）、通用目的（第4.1节和第4.2节）和低延迟（第4.3节）的移动视觉任务网络。
- 提到MobileViT块结合了CNNs和ViTs的优点，如空间归纳偏见和对数据增强的敏感性较低，能够在张量中有效编码局部和全局信息。
- 描述了MobileViT块如何通过使用变换器替代卷积中的局部处理来实现全局处理，这有助于MobileViT获得类似CNN和ViT的属性。
- 论文还提到，MobileViT在参数数量和简单的训练方法方面都有改进，显示了在移动设备上使用MobileViT作为特征提取器时的性能增益。

这部分内容强调了MobileViT在实现移动视觉任务方面的潜在优势，尤其是在处理速度和计算效率方面。

这张图片是一篇科学论文的一部分，主要内容包括：

内容简述：
- 讨论了轻量级CNNs的基本构建层，是一种标准的卷积层，提到了多种方法来制作轻量级CNNs。
- 引用了多个研究来支持轻量级CNNs在移动视觉任务中的应用，例如MobileNets、ShuffleNet、MNASNet等。
- 提及了视觉变换器（ViTs），它们是2017年由Dosovitskiy等人提出的，用于大规模图像识别，并且能够在极其大的数据集上达到CNN级别的准确性。
- 细节介绍了ViTs的一些改进，如使用卷积替代线性投影，以及如何通过在ViTs中使用卷积来增加其稳定性和性能。
- 讨论了MobileViT模型的优点，特别是在给定参数预算下的性能表现。
图3（Figure 3）：展示了MobileViT模型的三个变体（MobileViT-XXS、MobileViT-XS和MobileViT-S）在训练和验证过程中的表现。
- (a) 训练误差（Training error）
- (b) 验证误差（Validation error）
- (c) 验证准确性（Validation accuracy）
- (d) 参数分布（Parameter distribution）
图表和图示：
- 图3a和图3b展示了不同规模的MobileViT模型在训练和验证过程中的误差曲线，可以看出，随着训练的进行，误差在减少。
- 图3c比较了MobileViT模型与其他模型在验证准确性上的表现，显示MobileViT在给定的参数预算下取得了