17 - ConvMixer论文原理以及其PyTorch源码实现

取个名字真难呐

已于 2022-03-28 19:40:07 修改

阅读量4k

点赞数 2

分类专栏： pytorch python 文章标签： pytorch

于 2022-03-28 09:11:56 首次发布

本文链接：https://blog.csdn.net/scar2016/article/details/123786775

版权

pytorch 同时被 2 个专栏收录

148 篇文章 26 订阅

订阅专栏

python

75 篇文章 2 订阅

订阅专栏

文章目录

1. ConvMixer 论文
- 1.1 论文背景
- 1.2 论文结论
2. ConvMixer 主要思路
3. ConvMixer 代码
4. ConvMixer 小结

1. ConvMixer 论文

论文地址：Patches Are All You Need?

1.1 论文背景

作者在最近的研究中发现很多关于transformer的结构，发现transformer 中的结构效果非常的好，特别是vision-transformer 表现的异常的优秀，然而，由于transformer中自注意了层的平方运算导致计算量大，所以VIT提出了patch-embedding的方式，将一个图片打散成一个个块后组合成一个组。作者就开始怀疑，引起VIT模型好的到底是transformer结构还是patch-embedding。作者就对此进行研究，用一堆纯的卷积网络进行构建patch-embedding 操作，看看纯用卷积操作是否也行，或者比VIT更好，这样就形成了ConvMixer这篇论文。

1.2 论文结论

我们仅仅只用了标准的卷积神经网络就能独立的在空间融合(depthwise-convolution)和通道融合(pointwise-convolution)，并且用卷积实现了patch-embeding 我们把这种网络叫做ConvMixer；受到了ViTs和MLP-mixers的启发，我们也因为用到了较大的卷积核得到了较大的性能提升。但是我们的模型和实验在设计的时候既没有最大化精度也没有得到好的速度，并且也没有得到好的超参数，但我们发现ConvMixers性能上优于VIT和MLP-Mixer,并且能和resnets,deits,resmlps等模型竞争；我们证明了通过简单的patch-embedding组成的“各向同性”结构会成为未来的深度学习的模板。patch-embedding允许一次性进行下采样，这样可以减少内部分辨率和有效增加感受野、从而能够更容易的混合远距离的空间信息。反正，tokenizing 输入和patch embedding 是一种非常有效和重要的方法。

2. ConvMixer 主要思路

2.1 normal-convolution

对于普通的卷积神经网络来说，我们是通过卷积核将输入的所有通道进行融合计算，如下图所示：

重点：groups = 1

normal_conv = nn.Conv2d(in_channels=3,out_channels=1,kernel_size=5,groups=1)

在这里插入图片描述

2.2 depthwise-convolution

对于depthwise-convolution来说，主要是每一个通道channel单独进行计算，互补干涉

重点：groups = in_channel = 3

depthwise_conv = nn.Conv2d(in_channels=3,out_channels=3,kernel_size=5,groups=3)

在这里插入图片描述

2.3 pointwise-convolution

不做空间计算，所以卷积核的大小为1x1，这样就可以就所有通道进行融合计算；这个好早就有了，感觉为了新颖换成了pointwise名字，噱头啊！

重点：用 1 x 1 卷积核

pointwise_conv = nn.Conv2d(in_channels=3, out_channels=1, kernel_size=1)

在这里插入图片描述

2.4 ConvMixer结构

在这里插入图片描述

patch-embedding：
将输入的X(c × n × n)通过一个卷积核Conv2d(kernel_size=p,stride=p)
GELU:
激活函数：GELUl论文
应用高斯误差线性单位函数:
$\Phi(x)$

3. ConvMixer 代码

在这里插入图片描述

4. ConvMixer 小结

一个纯卷积的patch-embedding网络，思路很优秀，通过depthwise-convolution和pointwise-convolution来减少模型的参数

GELU激活函数
depthwise-convolution
pointwise-convolution
conv(kernel_size=p,stride=p)

取个名字真难呐

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
17 - ConvMixer论文原理以及其PyTorch源码实现

文章目录1. ConvMixer 论文2. ConvMixer 主要思路3. ConvMixer 代码4. ConvMixer 小结5. 相关知识1. ConvMixer 论文2. ConvMixer 主要思路3. ConvMixer 代码4. ConvMixer 小结5. 相关知识
复制链接

扫一扫

专栏目录