Transformer 向轻量型迈进，微软与中科院提出两路并行的 Mobile-Former

本文链接：https://blog.csdn.net/Extremevision/article/details/121626273

作者丨happy
编辑丨极市平台
本文原创首发于极市平台，转载请获得授权并标明出处。

VisionTransformer向轻量型迈进，微软与中科大提出两路并行的Mobile-Former

已有的Transformer对标的CNN主要是ResNet系列，鲜少有对标端侧轻量模型的Transformer。本文则从轻量模型角度出发，在MobileNet与Transformer组合方面进行了探索，它创造性的将MobileNet与Transformer进行了两路并行设计，穿插着全局与特征特征的双向融合，同时利用卷积与Transformer两者的优势达到“取长补短”的目的。此外，受益于超轻量设计，所提Mobile-Former不仅计算高效，同时具有更强的表达能力。在ImageNet分类与COCO目标检测方面，所提Mobile-Former取得了显著优于MobileNetV3的性能。

Abstract

本文提出了一种新颖的Mobile-Former，它采用了MobileNet与Transformer两路并行设计机制，该架构充分利用了MobileNet的局部处理优势与Transformer的全局交互能力。Transformer与MobileNet的双向桥接促进了全局特征与局部特征的双向融合。不同于现有的Vision Transformer，Mobile-Former中的Transformer包含非常少的(比如少于6个)、随机初始化tokens，进而产生了非常低的计算复杂度。结合所提轻量注意力，Mobile-Former不仅计算高效，同时具有更强的表达能力。在ImageNet分类任务上，从25M到500M Flops复杂度下，所提方案均取得了优于MobileNetV3的性能。比如，它凭借294MFlops计算量取得了比MobileNetV3高1.3%的top1精度且计算量节省17%；当迁移到目标检测时，Mobile-Former取得了比MobileNetV3高8.6AP的指标。