Google AI提出全新解决方案！大提速！只需MLP就在ImageNet达到SOTA！

最新推荐文章于 2024-08-01 14:35:22 发布

机器学习算法工程师

最新推荐文章于 2024-08-01 14:35:22 发布

阅读量580

点赞数 1

分类专栏： ImageNet 文章标签：网络算法机器学习人工智能深度学习

本文链接：https://blog.csdn.net/lujohn3li/article/details/116723177

版权

Google AI提出名为MLP-Mixer的新型视觉模型，仅使用MLP结构便在ImageNet上取得最优表现。MLP-Mixer通过token-mixing和channel-mixing MLP块分离特征混合，无需卷积和注意力机制。尽管在小数据集上可能逊色于其他模型，但在大规模数据预训练后，其性能接近SOTA，并且具备一定的计算效率。

摘要由CSDN通过智能技术生成

机器学习算法工程师
一个用心的账号
关注我，带你一起学习算法知识！

近日，Google AI又发布了一篇与ViT一样的重磅级论文：MLP-Mixer: An all-MLP Architecture for Vision。这篇论文提出的Mixer模型仅包含最简单的MLP结构就能在ImageNet上达到SOTA。那么MLP其实是两层FC层，这不禁让人感叹：

FC is all you need, neither Conv nor Attention！

在数据和资源足够的情况下，或许inductive bias的模型反而成了束缚，还不如最simple的模型来的直接。下面结果图就可以说明一切：当训练数据量较少时，性能BiT>ViT>Mixer，但是随着数据量的增加，三者性能基本相差无几。

从网络架构来看，MLP-Mixer和ViT非常类似：

预处理都是将图像分成patchs，通过linear projection得到一系列patch embeddings；
网络主体都是isotropic design，即由N个连续且相同的layers来组成。

差别主要体现在layers的不同，ViT采用的是transformer layer，而MLP-Mixer采用的是mixer-layer，mixer-layer很简单，只包括两个MLP（还有skip connection）：

（1）token-mixing MLP block：输入的特征维度为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tmi137uM-1620829529230)(https://mmbiz.qpic.cn/mmbiz_svg/icFTnRoibgibp9VQ5tFZeQztwcCLgLgR53qb3sruOW8qjCMj7uDt1Yb0icRMkeOEAyS172qaKeDINNqmTWibPKyqTw1V0uI60bN8Z/640?wx_fmt=svg)] ，操作的维度是tokens，意味着对所有tokens的同一特征做MLP；

（2）channel-mixing MLP block：输入的特征维度为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v