关注公众号,发现CV技术之美
本文分享论文『MoCoViT: Mobile Convolutional Vision Transformer』,由字节跳动提出轻量级高效新型网络MoCoViT,在分类、检测等CV任务上性能优于GhostNet、MobileNetV3!
详细信息如下:
论文链接:https://arxiv.org/abs/2205.12635
01
摘要
最近,Transformer 在各种视觉任务上取得了不错的成果。然而,它们中的大多数计算成本很高,不适合于实际的移动应用程序。在这项工作中,作者提出了移动卷积视觉Transformer(MoCoViT),它通过将Transfomrer引入移动卷积网络(mobile convolutional networks)来利用这两种架构的优点,从而提高性能和效率。
与最近有关vision transformer的工作不同,MoCoViT中的mobile transformer模块是为移动设备精心设计的,非常轻量级,通过两个主要修改完成:移动自注意力(Mobile Self-Attention,MoSA)模块和移动前馈网络(Mobile Feed Forward Network,MoFFN)。MoSA通过分支共享方案简化了attention map的计算,而MoFFN则作为transformer中MLP的移动版本,进一步大幅度减少了计算量。
综合实验证明,作者提出的MoCoViT系列在各种视觉任务上优于SOTA的便携式CNN和transformer神经架构。在ImageNet分类中,它在147M次浮点运算时达到了74.5%的Top-1精度,比MobileNetV3在计算量更少的情况下提高了1.2%。在COCO目标检测任务上,MoCoViT在RetinaNet框架下的性能比GhostNet高出2.1 AP。
02
Motivation
视觉Transformer(ViT)在各种任务上,如图像分类、目标检测和语义分割,都比CNN有显著的性能提升。然而,这些性能改进通常需要很高的计算成本。例如,为了执行图像分类任务,DeiT需要超过10G的Mult Adds。如此高的计算资源要求超出了许多移动设备的能力,例如智能手机和自动驾驶汽车。为了缓解这种问题,Swin将每个token的注意区域从全注意力限制为局部注意力,其中输入被拆分为子窗口,并且只在窗口内执行自注意力。Twins提出了空间可分离的自注意力,其中局部分组的自注意和全局子抽样的注意力被应用于两个连续的块中。缺点是,复杂性仍然太大,无法部署到移动设备上。
相反,在过去几年中,在设计用于移动视觉任务的高效卷积神经网络(CNN)方面取得了很大进展。例如,MobileNets利用深度卷积和点卷积来近似普通卷积层,并实现了可比的性能。ShuffleNet进一步提出了通道shuffle操作,以增强紧凑型模型的性能。GhostNet设计了一个Ghost模块,用于从简单操作中生成丰富的特征图。
在这项工作中,作者寻求为移动设备设计一个轻量级的Transformer,并在复杂性和性能之间实现良好的权衡。一些研究人员首次尝试通过结合CNN和transformer的有点来开发轻量级Transformer。之前研究工作人员MobileNetV2块和transformer块串联在一起,开发了MobileVit块来学习全局表示。但与移动CNN相比,MobileVit仍然相对较重。Mobile-Former是MobileNet和Transformer的并行设计,在两者之间有一个双向桥梁,用于通信。与之前的工作不同,作者提出了一种非常有效的Mobile Transformer Block(MTB)。该模块是为移