文献阅读(二十二):MLP-Mixer: An all-MLP Architecture for Vision
- 出处:CoRR abs/2105.01601 (2021)
- 主要内容:
摘要
卷积神经网络(CNNs)是计算机视觉的首选模型。最近,基于注意力的网络,如Vision Transformer,也变得流行起来。在这篇文章中,我们证明了卷积和注意力对于良好的性能都是足够的,但它们都不是必要的。我们提出了MLP-Mixer,一个专门基于多层感知器(MLPs)的体系结构。
MLP-Mixer包含两种类型的层:一种是MLPs独立应用于图像patches(即“混合”每个位置的特征),另一种是MLPs应用于跨patches(即“混合”空间信息)。
MLP-Mixer在大型数据集或现代正则化方案上进行训练时,可以在图像分类基准上获得有竞争力的分数,其预训练和推理成本可与最先进的模型相媲美。我们希望这些结果能在CNNs and Transformers领域之外引发进一步的研究。
1 Introduction
正如计算机视觉的历史所证明的那样,大数据集的可用性加上不断增加的计算能力通常会导致范式的转变。虽然卷积神经网络(cnn)已经成为计算机视觉事实上的标准,但最近Vision Transformers(ViT),一种基于自我关注层的替代网络,获得了最先进的性能。ViT延续了去除模型中手工制作的视觉特征和归纳偏差的长期趋势,并进一步依赖于从原始数据中学习。
我们提出MLP-Mixer体系结构(或简称“Mixer”),这是一种具有竞争力但在概念上和技术上都很简单的替代方案,不使用卷积或自我关注。相反,Mixer的架构完全基于多层感知器(MLPs),这些感知器在空间位置或特征通道上重复应用。