一、论文理论
论文地址:ConvMixer:Patches Are All You Need?
1.理论思想
背景
尽管多年来卷积网络一直是视觉任务的主要架构,但最近的实验表明,基于 Transformer 的模型,尤其是 Vision Transformer (ViT),在某些设置下可能会超过卷积的性能。然而,由于 transformer中自注意层的 quadratic runtime,ViT 需要使用 patch embeddings,将图像中的小区域组合成单个输入特征,以便应用于更大的图像尺寸。这就提出了一个问题: ViT 的性能是由于固有的更强大的Transformer架构,还是至少部分是因为使用补丁作为输入表示?
方法
本文为后者提供了一些证据:具体来说,提出了 ConvMixer,这是一个非常简单的模型,受到类似于 ViT 启发和更基本的 MLP-Mixer,ConvMixer 直接对输入的 patch 进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率。然而,相比之下,ConvMixer 只使用标准的卷积来实现混合步骤。