一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!
PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!
-
注1:文末附【Transformer】交流群
-
注2:整理不易,欢迎点赞,支持分享!
想看更多CVPR 2021论文和开源项目可以点击:
CVPR2021-Papers-with-Code
MLP-Mixer: An all-MLP Architecture for Vision
- 作者单位:原ViT作者团队(Google Research)
- 代码:https://github.com/google-research/vision_transformer
- 论文:https://arxiv.org/abs/2105.01601
卷积神经网络(CNN)是计算机视觉的首选模型。 最近,基于注意力的网络(例如Vision Transformer)也变得很流行。 在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能