MLP-Mixer: An all-MLP Architecture for Vision
Paper
(大厂论文总是不走寻常路,这篇总结暂且不遵循以往的阅读模式)
近期,谷歌新发布了一篇论文《MLP-Mixer》,号称使用纯MLP结构,便能在ImageNet上达到sota的结果。一石激起千层浪,很快清华、牛津、facebook等也相继发布了类似的工作,虽然没有像谷歌一样号称纯MLP取代CNN和Transformer。但也不由得让业界惊呼,MLP的时代又回来了?CV领域的发展历程,MLP -> CNN -> Transformer -> MLP 的圈貌似已经成型。
针对谷歌这篇MLP-Mixer的争议较多,暂且不讨论,首先来关注一下它的内容。
网络结构
整体结构如下,非常简洁清晰:input -> Nx(Mixer-MLP) -> Classfication Head 三部分。类似于ViT的结构,主要的区别就是encoder的模块改换为Mixer。
Classfication Head采用常规的 Global avg_pooling+FC来实现。Input采用ViT中的做法,将2-D图像分patch并映射,转换为(S×C)的矩阵,其中S为patc