Day 3: MLP-Mixer: An all-MLP Architecture for Vision

最新推荐文章于 2024-02-19 05:51:10 发布

ttppss

最新推荐文章于 2024-02-19 05:51:10 发布

阅读量280

点赞数

分类专栏：论文研读文章标签： mlp 人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/ttppss/article/details/116511448

版权

论文研读专栏收录该内容

18 篇文章 3 订阅

订阅专栏

本文介绍了Mixer模型，一个基于古老多层感知机的新架构，它在不依赖卷积和注意力机制的情况下，通过两种MLP层实现空间和通道信息的混合，达到接近SOTA的分类性能。Mixer的独特之处在于其明确区分了位置运算和区域运算，其结构简单，仅基于矩阵乘法和非线性运算，且对输入顺序敏感，从而学习到位置信息。该研究挑战了CNN和Transformer在视觉任务中的主导地位。

摘要由CSDN通过智能技术生成

本文是关于最新出来的多层感知机的文章，文章的主要贡献如下

作者霸气地说：“尽管卷积和注意力机制目前都取得了足够好的表现，但他们都是没有必要的”，也就是常说的“在座的各位都是XX”。原文：“In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary.”
MLP-Mixer主要是基于古老的多层感知机(MLP)的，它包含两种layer：一种独立地把MLP用在图片块上(image patch)，用来混合基于每个位置的特征(“mixing” the pre-location features)；一种把MLP用在图片块之间(across patches)，用来混合空间信息(“mixing” spatial information.）
当用于大型数据集和 modern regularization schemes 的场景下时，能在分类任务上取得接近 SOTA 的结果。
作者希望这些结果能够激发更多的人，来干翻现在由CNN和Transformer引领的视频世界 LOL。

方法和实现

由于还没来得及看代码，代码细节看过之后再回来写吧。有意思的是，代码被放在了 ViT 的同一个repo下面

Mixer 的结构完全基于多层感知机MLP，且多层感知机重复地应用在空间位置之间，或者特征通道之间 (Mixer’s architecture is based entirely on multi-layer perceptrons (MLPs) that are repeatedly applied across either spatial locations or feature channels).
Mixer 纯基于基本的矩阵乘法，对数据布局的变换（reshape或者转置），以及标量的非线性运算。

结构图及粗略介绍

首先将输入图片拆成图片块（patch），并将这些图片块线性映射（linearly project）成一个token序列，并排列成一个" $patches \times channels$ " 的表作为输入，并保持这个维度。
如上所说，Mixer 有两种MLP层，一种叫"通道混合MLP" (channel-mixing MLPs)，另外一种叫“符号混合MLP” (token-mixing MLPs)。
channel-mixing MLP 允许在不同通道之间的信息交流，它在每一个token上独立地操作，把上述列表的每一行当成输入。token-mixing MLP 允许在不同的空间位置的信息进行交流（也既不同的token间），它独立地应用在每个通道上，把上述列表的每一列当成输入。
这两种MLP交错在一起，使不同维度之间的信息得以交互。

插入一点个人理解，待续

在极端情况下，这个模型可以看成是一个非常特殊的CNN，它用 $\times 1$ 卷积来做通道上的混合，在整个视野域上用单通道depth-wise 卷积和参数共享来做符号混合。
需要注意，反过来并非如此（即不能说符合以上条件的CNN就是Mixer模型的特殊情况），因为典型的CNN并非是我们这个Mixer模型的特殊情况。

Mixer 模型的详细架构

Mixer 模型最主要的 idea 是，它明确地分开了基于每个位置的运算（channel-mixing）和区域之间的运算（token-mixing）
如上面的结构图所示，Mixer 把没有重叠的图片块组成的序列当作输入（序列长度为S），每个图片块都被映射成一个规定好的大小（hidden dimension C），得到的输出就是个 $\times C$ 大小的表 $X$ , $\mathbf{X} \in \mathbb{R}^{S \times C}$ . 如果原始输入图片的大小为 $(H, W)$ ，每个图片块的大小是 $(P, P)$ ，那么所有图片块的总数为 $S = HW / P^2$
所有图片块都是被**同一个**映射矩阵进行映射的。
Mixer中的layer都是同样大小，每个layer都由两个MLP模块组成。其中第一个模块是token-mixing MLP 模块，它作用在 $X$ 的每一列上（其实是先将 $X$ 转置成 $X^T$ ）。第二个模块是channel-mixing MLP 模块，它作用在 $X$ 的每一行上。
每个MLP模块都含有两个全连接层，同时一个非线性层独立地加在输入的每一行上。整体结构如下：

$\begin{array}{ll}\mathbf{U}_{*, i}=\mathbf{X}_{*, i}+\mathbf{W}_{2} \sigma\left(\mathbf{W}_{1} \text { LayerNorm }(\mathbf{X})_{*, i}\right), & \text { for } i=1 \ldots C, \\\mathbf{Y}_{j, *}=\mathbf{U}_{j, *}+\mathbf{W}_{4} \sigma\left(\mathbf{W}_{3} \text { LayerNorm }(\mathbf{U})_{j, *}\right), & \text { for } j=1 \ldots S .\end{array}$

$D_S$ 和 $D_C$ 分别是token-mixing和channel-mixing中可调节的隐藏层的长度，由于 $D_S$ 和 $D_C$ 都是与输入图片块的数量无关的量(independently)，因此它的计算复杂度与输入图片块线性相关。
尽管可能在其它地方见过在每个通道上分别做卷积，但在可分离卷积中，每个通道都使用了一个不同的卷积核；而在Mixer的token-mixing时，所有的通道上的卷积都使用同一个卷积核。这么做有效地防止了当增大 $S$ 或者 $C$ 时，引起的模型的快速增长。
Surprisingly，这么做居然还不错
Mixer中的每层的输入都是固定大小，和Transformer、RNN有点像。
Mixer没有采用位置编码，因为token-mixing MLP 对输入的顺序非常敏感，因此能最终学习到如何表示位置信息。

ttppss

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Day 3: MLP-Mixer: An all-MLP Architecture for Vision

本文是关于最新出来的多层感知机的文章，文章的主要贡献如下作者霸气地说：“尽管卷积和注意力机制目前都取得了足够好的表现，但他们都是没有必要的”，也就是常说的“在座的各位都是XX”。原文：“In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary.”MLP-Mixer主要是基于古老的多层感知机(MLP)
复制链接

扫一扫

专栏目录