关注公众号,发现CV技术之美
本文分享论文『Patches Are All You Need?』,提出《ConvMixer》,只需 7 行 pytorch 代码实现的网络,就能在 ImageNet 上达到 80%+ 的精度!
详细信息如下:
论文链接:https://openreview.net/forum?id=TVHS5Y4dNvM
项目链接:https://github.com/tmp-iclr/convmixer
复现代码:https://github.com/xmu-xiaoma666/External-Attention-pytorch#4-ConvMixer-Usage
导言:
尽管卷积网络多年来一直是视觉任务的主要结构,但最近的实验表明,基于Transformer的模型,在某些设置下可能超过卷积神经网络的性能。然而,由于Transformer中自注意层的计算复杂度和输入大小呈二次关系,因此ViT需要使用patch embedding,它将图像的小区域组合成单个输入特征,以便自注意力能够应用于更大的图像大小。
因此,作者就提出了一个问题:ViT的性能是由于其强大的Transformer结构,还是至少有部分是由于使用patch作为输入表示?
在本文中,作者为后者提出了一些证据:我们提出了一个非常简单的模型ConvMixer,在思想上类似于ViT和MLP-Mixer,因为它直接将patch作为输入,分离空间和通道尺寸的混合建模,并在整个网络中保持相同大小的分辨率。但是ConvMixer只使用标准卷积来实现混合步骤。尽管ConvMixer的设计很简单,但是实验证明了ConvMixer在相似的参数计数和数据集大小方面优于ViT、MLP-Mixer及其一些变体,以及经典的视觉模型,如ResNet。
01
Motivation
多年来,卷积神经网络一直是计算机视觉任务的主流结构。但最近,基于Transformer的结构,在许多这些任务中显示出不错的性能,特别是在大型数据集上,通常优于经典的卷积结构。因此