MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

最新推荐文章于 2023-12-31 13:10:17 发布

小小小~

最新推荐文章于 2023-12-31 13:10:17 发布

阅读量1.3k

点赞数 2

分类专栏： Transformer 文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/qq_52302919/article/details/128835146

版权

Transformer 专栏收录该内容

28 篇文章 24 订阅

订阅专栏

paper链接: https://arxiv.org/abs/2209.15159
code链接

MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

(一)、引言
(二)、实现细节
(三)、模型构建块
(四)、实验

(一)、引言

虽然mobilevit-v1有助于实现最先进的竞争结果，但mobilevit-v1块内部的融合块创建了扩展挑战，并具有复杂的学习任务。本文对融合块进行简单有效的更改，以创建mobilevit-v3块，这解决了扩展问题并简化了学习任务。提出的用于创建MobileViTv3-XXS、XS和S模型的MobileViTv1在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上的性能优于MobileViT-v1。最近发布的MobileViT-v2架构去掉了融合块，并使用线性复杂的transformer来实现比MobileViT-v1更好的性能。
最近，视觉transformer(ViTs)已经成为CNN在视觉任务中的强大替代品。CNN由于其架构设计，与局部相邻像素/特征相互作用，生成嵌入局部信息的特征图。相比之下，ViTs中的自注意机制与图像/特征映射的各个部分相互作用，产生嵌入全局信息的特征。这已被证明可以产生与CNN相当的结果，但需要大量的预训练数据和预先数据增强。此外，这种全局处理以大参数和flop为代价，以匹配ViT及其不同版本(如DeiT、SwinT、 MViT 、Focal-ViT、 PVT、 T2T-ViT、 XCiT )中所见的CNN性能。而且VIT存在对优化器选择、学习率、权值衰减和收敛速度慢等超参数高度敏感的问题。
最近许多工作在ViT架构中引入了卷积层来形成混合网络，以提高性能，实现样本效率，并使模型在参数和flop方面更加高效，如 MobileViTv1， MobileViTv2， CMT ，CvT ，PVTv2，ResT， MobileFormer，CPVT，MiniViT，CoAtNet， CoaT。
其中许多模型在ImageNet-1K上的性能(包括参数和flop)如下图所示。在这些模型中，只有MobileViTs和MobileFormer是专门为移动设备等资源受限的环境设计的。与其他混合网络相比，这两种模型具有更少的参数和FLOPs，从而实现了具有竞争力的性能。尽管这些小型混合模型对于移动设备上的视觉任务至关重要，但在这一领域的研究很少。
在这里插入图片描述
本文提出了简单有效的方法来融合输入、局部(CNN)和全局(ViT)特征，从而导致Imagenet-1K、ADE20k、PascalVOC和COCO数据集的显著性能改进。
对MobileViTv1块进行四个主要更改(对MobileViTv2块进行三更改)，如下图所示。融合块中有三个变化:首先，将3x3卷积层替换为1x1卷积层。其次，将局部表示块和全局表示块的特征融合在一起，而不是将输入表示块和全局表示块融合在一起。第三步，在融合块中加入输入特征，作为生成MobileViT块输出前的最后一步。第四个变化是在局部表示块，将普通的3x3卷积层替换为深度3x3卷积层。这些变化导致MobileViTv1块的参数和FLOPs减少，并允许缩放(增加模型宽度)创建新的MobileViTv3-S, XS和XXS架构。
在这里插入图片描述

(二)、实现细节

**将融合块中的3x3卷积层替换为1x1卷积层:**在融合中替换3x3卷积层有两个主要动机。首先，融合局部和全局特征，独立于特征图中的其他位置，以简化融合块的学习任务。从概念上讲，3x3卷积层是融合输入特征、全局特征，以及其他位置的输入特征和感受野中的全局特征，这是一个复杂的任务。融合块的目标可以简化，允许它融合输入和全局特征，独立于特征图中的其他位置。为此，在融合中使用1x1卷积层而不是3x3卷积层。其次，是消除了MobileViTv1架构扩展的主要限制之一。将MobileViTv1从XXS扩展到S是通过改变网络宽度并保持深度不变来实现的。改变MobileViTv1块的宽度(输入和输出通道的数量)会导致大量增加参数和flop的数量。例如，如果MobileViTv1块中的输入和输出通道增加了一倍(2x)，则融合块内部到3x3卷积层的输入通道数量增加了4倍，输出通道增加了2倍，因为到3x3卷积层的输入是输入和全局表示块特征的拼接。这将导致MobileViTv1块的参数和FLOPs大量增加。使用1x1卷积层避免了缩放时参数和flop的大幅增加。
**局部和全局特征融合:**在融合层中，来自局部和全局表示块的特征被连接到提出的MobileViTv3块中，而不是输入和全局表示特征。这是因为与输入特征相比，局部表示特征与全局表示特征更密切相关。局部表示块的输出通道略高于输入特征中的通道。这导致输入特征映射到融合块的1x1卷积层的数量增加，但由于3x3卷积层变为1x1卷积层，参数和flop的总数明显少于基线MobileViTv1块。
**融合输入特征:**在融合块的1x1卷积层输出中加入输入特征。ResNet和DenseNet等模型中的残差连接已被证明有助于架构中更深层次的优化。通过将输入特征添加到融合块的输出中，在新的MobileViTv3架构中引入了这种残差连接。该残差连接贡献0.6%的精度增益。
**局部表示块的深度卷积层:**为了进一步减少参数，将局部表示块的3x3卷积层替换为深度3x3卷积层。

(三)、模型构建块

在这里插入图片描述

(四)、实验

(一)、分类

在这里插入图片描述

(二)、与vits的比较

在这里插入图片描述

(三)、语义分割

在这里插入图片描述

(四)、检测

在这里插入图片描述

(五)、消融实验

在这里插入图片描述
在100个epoch下

在300个epoch下

小小小~

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
6
评论
MOBILEVITV3: MOBILE-FRIENDLY VISION TRANS- FORMER WITH SIMPLE AND EFFECTIVE FUSION OF LOCAL, GLOBAL

虽然mobilevit-v1有助于实现最先进的竞争结果，但mobilevit-v1块内部的融合块创建了扩展挑战，并具有复杂的学习任务。本文对融合块进行简单有效的更改，以创建mobilevit-v3块，这解决了扩展问题并简化了学习任务。提出的用于创建MobileViTv3-XXS、XS和S模型的MobileViTv1在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上的性能优于MobileViT-v1。最近发布的MobileViT-v2架构去掉了融合块，并使用线性复杂的tran
复制链接

扫一扫