5分钟就能学会的简单结构 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021

最新推荐文章于 2024-10-11 19:40:11 发布

微信公众号[机器学习炼丹术]

最新推荐文章于 2024-10-11 19:40:11 发布

阅读量521

点赞数

分类专栏：深度学习不得不了解的技巧文章标签：人工智能

本文链接：https://blog.csdn.net/qq_34107425/article/details/117664920

版权

76 篇文章 31 订阅

订阅专栏

「前沿」：最近忙各种各样的事情，更新慢了。抽空写一点。这一篇内容很简单，只需要5min就可以学完。

我们提供了MLP-Mixer架构，之后简称Mixer。这是一个有竞争力，但是概念和技术都很简单的结构，并且没有用到卷积和自注意力。

类似于transformer，Mixer模型的输入依然是图片的Patch经过线性映射之后的序列，简单的说就是embedding。是一个形状如同“patches x channels” 这样的一个特征。其中，我们把图片embedding之后的序列，叫做token。

下图是Mixer的宏观结构图：

Mixer利用了两种MLP层：

「图解读」

从图中caption部分可以看到。“Per-patch Fully-connected”我认为就是embedding层，比方说把一个32x32x3的彩色patch图片，全连接映射到128维度的序列。
Mixer Layer就是文章提出的主要创新结构。其中，每一个Mixer Layer包含一个token-mixing MLP 和一个channel-mixing MLP，这两个结构都是由两个全连接层和GELU激活函数组成。
我们再来看上图的上面部分，体现了Mixer Layer的细节：首先，假设一个图片被分成了9个patch，然后每一个patch经过embedding，变成了一个128的向量。那么原图经过embedding，最终得到的是9x128这样的一个矩阵。
1. 这个矩阵先经过LayerNorm，相当于是在128这个维度上进行归一化；
2. 然后矩阵经过转置，变成128x9的样式；
3. 经过第一个全联接层，这个MLP应该就是channel-mixing了，因为是对9这个patch维度进行计算；
4. 然后再转置成9x128，再进行layer norm；
5. 然后token-mixing channels，在128这个spatial维度上进行计算；
6. 中间加了两个skip connection。

「这里，我们可以发现，整个结构确实非常简单，回头试试效果去。」