DL-Paper精读:MLP-Mixer

本文深入解析谷歌提出的MLP-Mixer模型,该模型以纯MLP架构在计算机视觉任务中取得令人瞩目的成绩。文章介绍了其网络结构,包括Token-Mixing MLP和Channel-Mixing MLP,以及在ImageNet上的实验结果,展示了在精度、训练时间和推理吞吐量之间的平衡。尽管精度未达SOTA,MLP-Mixer仍引发业界对MLP复兴的讨论,并为未来研究提供新思路。
摘要由CSDN通过智能技术生成

MLP-Mixer: An all-MLP Architecture for Vision

Paper
(大厂论文总是不走寻常路,这篇总结暂且不遵循以往的阅读模式)
近期,谷歌新发布了一篇论文《MLP-Mixer》,号称使用纯MLP结构,便能在ImageNet上达到sota的结果。一石激起千层浪,很快清华、牛津、facebook等也相继发布了类似的工作,虽然没有像谷歌一样号称纯MLP取代CNN和Transformer。但也不由得让业界惊呼,MLP的时代又回来了?CV领域的发展历程,MLP -> CNN -> Transformer -> MLP 的圈貌似已经成型。
针对谷歌这篇MLP-Mixer的争议较多,暂且不讨论,首先来关注一下它的内容。

网络结构

整体结构如下,非常简洁清晰:input -> Nx(Mixer-MLP) -> Classfication Head 三部分。类似于ViT的结构,主要的区别就是encoder的模块改换为Mixer。
在这里插入图片描述
Classfication Head采用常规的 Global avg_pooling+FC来实现。Input采用ViT中的做法,将2-D图像分patch并映射,转换为(S×C)的矩阵,其中S为patc

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值