ConvNext详解

最新推荐文章于 2024-07-20 23:50:06 发布

樱花的浪漫

最新推荐文章于 2024-07-20 23:50:06 发布

阅读量3.4k

点赞数 6

分类专栏： transformer 文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52053775/article/details/136913362

版权

transformer 专栏收录该内容

32 篇文章 19 订阅

订阅专栏

Facebook的研究人员设计了ConvNext系列，通过提升感受野、改变激活函数、归一化方法和降采样策略，优化了卷积与Transformer的结合。ConvNextv2针对MAE中的特征崩溃问题引入了全卷积和GRU，简化了编码器和解码器设计。

摘要由CSDN通过智能技术生成

1.ConvNext v1

Transformer在视觉领域大放异彩？以后卷积怎么办呢？facebook 的研究人员就探究了这样一个问题。首先，SwinTransformer采用分层和窗口的设计，取得了非常好的性能。这说明卷积这种窗口的设计也是有用的，因此，研究人员通过对比卷积和Transformer的体系结构，设计了ConvNext。

（1）提升感受野，使用更大的卷积核（3*3-->7*7），但是更大的卷积核带来了更多的运算量，这就需要使用1*1的卷积调整通道和分组卷积了。

（2）将ReLU替换为GeLU,并设计了一个类似于Transformer的FFN层的结构，即在两层1*1的卷积中间使用激活函数

（3）归一化由BN变为LN，并类似于Transformer，使用更少的归一化层。

（4）降采样层：类似于Swin Transformer，使用2*2的卷积，stride为2，并使用LN稳定训练。

2.ConvNext v2

（1）问题：

将ConvNext直接应用于自监督学习框架MAE中性能不佳，基于此，这篇论文设计了全卷积的MAE
模型中特征崩溃现象：有许多死亡或饱和的特征图，激活在通道之间变得冗余。作者引入GRU解决这个问题

（2）全卷积的MAE

框架概述：MAE的自监督框架是，首先对图像进行随机的掩蔽，然后使用神经网络尝试重构掩蔽部分，并与原图进行对比，计算损失。

掩蔽策略： 掩蔽比例在0.6

编码器设计：在Transformer中，我们只需要使用mask就能够防止Transformer对掩蔽部分进行建模。而在卷积中，由于卷积核在整个图像上平移并计算特征。需要采取策略有效阻止卷积从掩蔽部分提取特征。为了解决这个问题，论文提出以稀疏数据的角度看待掩蔽图像。引入3D点云的稀疏卷积。

解码器设计：使用一个ConvNeXt 作为解码器

（3）GRU

对特征图进行可视化发现，ConvNext v1存在特征崩溃现象：有许多死亡或饱和的特征图，激活在通道之间变得冗余。

GRU包含3个部分：

全局特征聚合（可以看做一种全局池化）

特征归一化

特征校准：引入权重和偏置项进行平滑，并使用残差设计

代码实现特别简单：

当应用GRN时，LayerScale就变得不必要了，并且可以被删除。

樱花的浪漫

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
4
评论
ConvNext详解

MAE的自监督框架是，首先对图像进行随机的掩蔽，然后使用神经网络尝试重构掩蔽部分，并与原图进行对比，计算损失。
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

樱花的浪漫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。