作者丨happy
编辑丨极市平台
本文原创首发于极市平台,转载请获得授权并标明出处。
VisionTransformer向轻量型迈进,微软与中科大提出两路并行的Mobile-Former
已有的Transformer对标的CNN主要是ResNet系列,鲜少有对标端侧轻量模型的Transformer。本文则从轻量模型角度出发,在MobileNet与Transformer组合方面进行了探索,它创造性的将MobileNet与Transformer进行了两路并行设计,穿插着全局与特征特征的双向融合,同时利用卷积与Transformer两者的优势达到“取长补短”的目的。此外,受益于超轻量设计,所提Mobile-Former不仅计算高效,同时具有更强的表达能力。在ImageNet分类与COCO目标检测方面,所提Mobile-Former取得了显著优于MobileNetV3的性能。
Abstract
本文提出了一种新颖的Mobile-Former,它采用了MobileNet与Transformer两路并行设计机制,该架构充分利用了MobileNet的局部处理优势与Transformer的全局交互能力。Transformer与MobileNet的双向桥接促进了全局特征与局部特征的双向融合。不同于现有的Vision Transformer,Mobile-Former中的Transformer包含非常少的(比如少于6个)、随机初始化tokens,进而产生了非常低的计算复杂度。结合所提轻量注意力,Mobile-Former不仅计算高效,同时具有更强的表达能力。在ImageNet分类任务上,从25M到500M Flops复杂度下,所提方案均取得了优于MobileNetV3的性能。比如,它凭借294MFlops计算量取得了比MobileNetV3高1.3%的top1精度且计算量节省17%;当迁移到目标检测时,Mobile-Former取得了比MobileNetV3高8.6AP的指标。
Method
阅读全文:Transformer 向轻量型迈进,微软与中科院提出两路并行的 Mobile-Former
推荐大家关注极市平台公众号,每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~