MobileViT详解:轻型,通用,移动友好的视觉变压器
0. 引言
轻量级卷积神经网络(CNN) 在图像领域得到了广泛的应用。他们的空间归纳偏差
使他们能够在不同的视觉任务中学习参数更少的表征。然而,这些网络在空间上是局部
的。为了学习全局表征
,采用了基于自注意的视觉变换(ViTs)。与CNN不同,ViT
是重量级
的。
因此,作者提出了MobileViT
网络,将 CNN
和 ViT
的优势结合起来。在轻量的基础
上具有可以处理全局信息
的能力。
实验结果表明:在不同的任务和数据集上,MobileViT明显优于
基于cnn和viti的网络。在ImageNet-1k数据集上,MobileViT在约600万个参数下达到了78.4%的前1准确率,在相同数量的参数下,比MobileNetv3(基于CNN)和 DeIT
(基于ViT
)的准确率分别提高了3.2%
和6.2%
。在MS-COCO目标检测任务上,对于相似数量的参数,MobileViT比MobileNetv3的准确率高5.7%
。
论文名称:MobileViT: Light