关注公众号,发现CV技术之美
本文分享论文『ConvMLP: Hierarchical Convolutional MLPs for Vision』,由 UO&UIUC 提出 ConvMLP:一个用于视觉识别的层次卷积MLP,且是一个轻量级、阶段级、具备卷积层和MLP的设计。ConvMLP在ImageNet-1k、2.4G MACs和9M参数量上达到了76.8% 的Top-1精度。
详细信息如下:
论文链接:https://arxiv.org/abs/2109.04454
项目链接:https://github.com/SHI-Labs/Convolutional-MLPs
导言:
![b3c9d1817b94609901e4968e7971cb2b.png](https://i-blog.csdnimg.cn/blog_migrate/a061457c443d274e722bd2ca80e7d9eb.png)
最近发现,由一系列连续的多层感知机块(MLP Block)组成的基于MLP的架构,可以达到与基于卷积和Transformer的方法相当的结果。然而,大多数方法都采用了固定维度输入的空间MLP,因此很难将其应用于下游任务,如目标检测和语义分割 。此外,单阶段设计进一步限制了其他计算机视觉任务的性能,且全连接层具有较大的计算量。
为了解决这些问题,作者提出了ConvMLP:一个用于视觉识别的层次卷积MLP,这是一个轻量级、阶段级、具备卷积层和MLP的设计。ConvMLP在ImageNet-1k、2.4G MACs和9M参数量上达到了76.8% 的Top-1精度。目标检测和语义分割的实验进一步表明,ConvMLP学习的视觉表示可以无缝迁移,并在较少的参数下获得有竞争力的结果。
01
Motivation
图像分类是计算机视觉中的一个基本问题,过去五年来,大多数里程碑式的解决方案都是由深度卷积神经网络主导的。自2020年底,视觉Transformer的兴起以来,研究人员不仅将Transformer应用于图像分类,而且还探索了除卷积神经网络之外的更多的模型。
MLP-Mixer提出了token混