(二十二):MLP-Mixer

本文介绍了MLP-Mixer,一个不使用卷积和注意力机制,而是完全基于多层感知器的计算机视觉模型。MLP-Mixer通过两种类型的MLP层——通道混合MLP和令牌混合MLP,实现了位置和特征的混合。实验证明,即使在大型数据集上,Mixer也能获得与最先进的模型相媲美的性能,同时保持较低的预训练和推理成本。
摘要由CSDN通过智能技术生成

  • 出处:CoRR abs/2105.01601 (2021)
  • 主要内容:

摘要

卷积神经网络(CNNs)是计算机视觉的首选模型。最近,基于注意力的网络,如Vision Transformer,也变得流行起来。在这篇文章中,我们证明了卷积和注意力对于良好的性能都是足够的,但它们都不是必要的。我们提出了MLP-Mixer,一个专门基于多层感知器(MLPs)的体系结构
MLP-Mixer包含两种类型的层:一种是MLPs独立应用于图像patches(即“混合”每个位置的特征),另一种是MLPs应用于跨patches(即“混合”空间信息)。
MLP-Mixer在大型数据集或现代正则化方案上进行训练时,可以在图像分类基准上获得有竞争力的分数,其预训练和推理成本可与最先进的模型相媲美。我们希望这些结果能在CNNs and Transformers领域之外引发进一步的研究。

1 Introduction

正如计算机视觉的历史所证明的那样,大数据集的可用性加上不断增加的计算能力通常会导致范式的转变。虽然卷积神经网络(cnn)已经成为计算机视觉事实上的标准,但最近Vision Transformers(ViT),一种基于自我关注层的替代网络,获得了最先进的性能。ViT延续了去除模型中手工制作的视觉特征和归纳偏差的长期趋势,并进一步依赖于从原始数据中学习。

我们提出MLP-Mixer体系结构(或简称“Mixer”),这是一种具有竞争力但在概念上和技术上都很简单的替代方案,不使用卷积或自我关注。相反,Mixer的架构完全基于多层感知器(MLPs),这些感知器在空间位置或特征通道上重复应用。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值