（二十二）：MLP-Mixer

最新推荐文章于 2023-07-26 09:41:46 发布

Laura_Wangzx

最新推荐文章于 2023-07-26 09:41:46 发布

阅读量486

点赞数 1

分类专栏： “情感分析”研究方向论文-精读总结

本文链接：https://blog.csdn.net/qq_37486501/article/details/116780394

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了MLP-Mixer，一个不使用卷积和注意力机制，而是完全基于多层感知器的计算机视觉模型。MLP-Mixer通过两种类型的MLP层——通道混合MLP和令牌混合MLP，实现了位置和特征的混合。实验证明，即使在大型数据集上，Mixer也能获得与最先进的模型相媲美的性能，同时保持较低的预训练和推理成本。

摘要由CSDN通过智能技术生成

文献阅读（二十二）：MLP-Mixer: An all-MLP Architecture for Vision

摘要
1 Introduction
2 Mixer Architecture
3 Experiments
4 Related Work
5 Conclusions

出处：CoRR abs/2105.01601 (2021)
主要内容：

摘要

卷积神经网络(CNNs)是计算机视觉的首选模型。最近，基于注意力的网络，如Vision Transformer，也变得流行起来。在这篇文章中，我们证明了卷积和注意力对于良好的性能都是足够的，但它们都不是必要的。我们提出了MLP-Mixer，一个专门基于多层感知器(MLPs)的体系结构。
MLP-Mixer包含两种类型的层：一种是MLPs独立应用于图像patches(即“混合”每个位置的特征)，另一种是MLPs应用于跨patches(即“混合”空间信息)。
MLP-Mixer在大型数据集或现代正则化方案上进行训练时，可以在图像分类基准上获得有竞争力的分数，其预训练和推理成本可与最先进的模型相媲美。我们希望这些结果能在CNNs and Transformers领域之外引发进一步的研究。

1 Introduction

正如计算机视觉的历史所证明的那样，大数据集的可用性加上不断增加的计算能力通常会导致范式的转变。虽然卷积神经网络(cnn)已经成为计算机视觉事实上的标准，但最近Vision Transformers(ViT)，一种基于自我关注层的替代网络，获得了最先进的性能。ViT延续了去除模型中手工制作的视觉特征和归纳偏差的长期趋势，并进一步依赖于从原始数据中学习。

我们提出MLP-Mixer体系结构(或简称“Mixer”)，这是一种具有竞争力但在概念上和技术上都很简单的替代方案，不使用卷积或自我关注。相反，Mixer的架构完全基于多层感知器(MLPs)，这些感知器在空间位置或特征通道上重复应用。

了解本专栏

Laura_Wangzx

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
（二十二）：MLP-Mixer

文献阅读（二十二）：MLP-Mixer: An all-MLP Architecture for Vision摘要1 Introduction2 Mixer Architecture3 Experiments3.1 Main results3.2 The role of the model scale3.3 The role of the pre-training dataset size3.4 Visualization4 Related Work5 Conclusions出处：CoRR abs/21
复制链接

扫一扫