DL-Paper精读：MLP-Mixer

最新推荐文章于 2024-04-25 09:58:32 发布

星月野

最新推荐文章于 2024-04-25 09:58:32 发布

阅读量317

点赞数

分类专栏： paper阅读文章标签：机器学习人工智能算法计算机视觉深度学习

本文链接：https://blog.csdn.net/li6016265/article/details/117486491

版权

本文深入解析谷歌提出的MLP-Mixer模型，该模型以纯MLP架构在计算机视觉任务中取得令人瞩目的成绩。文章介绍了其网络结构，包括Token-Mixing MLP和Channel-Mixing MLP，以及在ImageNet上的实验结果，展示了在精度、训练时间和推理吞吐量之间的平衡。尽管精度未达SOTA，MLP-Mixer仍引发业界对MLP复兴的讨论，并为未来研究提供新思路。

摘要由CSDN通过智能技术生成

MLP-Mixer: An all-MLP Architecture for Vision

Paper
（大厂论文总是不走寻常路，这篇总结暂且不遵循以往的阅读模式）
近期，谷歌新发布了一篇论文《MLP-Mixer》，号称使用纯MLP结构，便能在ImageNet上达到sota的结果。一石激起千层浪，很快清华、牛津、facebook等也相继发布了类似的工作，虽然没有像谷歌一样号称纯MLP取代CNN和Transformer。但也不由得让业界惊呼，MLP的时代又回来了？CV领域的发展历程，MLP -> CNN -> Transformer -> MLP 的圈貌似已经成型。
针对谷歌这篇MLP-Mixer的争议较多，暂且不讨论，首先来关注一下它的内容。

网络结构

整体结构如下，非常简洁清晰：input -> Nx(Mixer-MLP) -> Classfication Head 三部分。类似于ViT的结构，主要的区别就是encoder的模块改换为Mixer。
在这里插入图片描述
Classfication Head采用常规的 Global avg_pooling+FC来实现。Input采用ViT中的做法，将2-D图像分patch并映射，转换为（S×C）的矩阵，其中S为patc

最低0.47元/天解锁文章

星月野

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
DL-Paper精读：MLP-Mixer

MLP-Mixer: An all-MLP Architecture for VisionPaper（大厂论文总是不走寻常路，这篇总结暂且不遵循以往的阅读模式）近期，谷歌新发布了一篇论文《MLP-Mixer》，号称使用纯MLP结构，便能在ImageNet上达到sota的结果。一石激起千层浪，很快清华、牛津、facebook等也相继发布了类似的工作，虽然没有像谷歌一样号称纯MLP取代CNN和Transformer。但也不由得让业界惊呼，MLP的时代又回来了？CV领域的发展历程，MLP -> CNN
复制链接

扫一扫

专栏目录