A ConvNet for the 2020s ——阅读笔记

A ConvNet for the 2020s —— ConvNeXt

该论文通过模仿Vision Transformer系列和Swin Transformer的网络结构改造ResNet网络,使用纯卷积网络达到Transformer网络的效果,甚至更好。
change
文章使用ResNet-50作为基础模型,使用Transformers的训练技术;这个训练结果做基线

训练技巧

训练技术 主要和 优化策略、相关超参数 有关;
训练技巧
性能提升:76.1% ------> 78.8%, (+2.7%)

宏设计

Swin Transformer 遵循 ConvNets的多阶段设计,其中每个阶段都有不同的特征图分辨率;
包括两个设计考虑因素:stage compute ratio 和 “stem cell” structure

注解:
stem cell :是指网络开始时处理输入图像那个块,即数据进入网络做的第一步操作;
stem cell
在这里插入图片描述
改变依据:

  1. stage compute ratio
    小型Swin-T的阶段计算比率为–>(1: 1: 3: 1),大型Swin-T的阶段计算比率为–>(1: 1: 9: 1)
  2. “stem cell”
    在vision transformer中使用 “patchify” 策略,即使用大卷积核和非重叠卷积;
    Swin Tranformer中使用类似的 "补丁化”层,补丁大小为4

ResNeXt

ResNet 和 ResNeXt网络块结构

残差块
ResNeXt的核心组件时分组卷积,其中卷积滤波器被分成不同的组

深度卷积

普通卷积:
conv
深度卷积:对输入的每一个channel独立的用对应的channel的所有卷积核去卷积;
dwconv
逐点卷积:
pwconv

论文做的改变

change

倒置瓶颈

change
改变依据:

  1. 每个Transformer块中的重要设计 —— 倒置瓶颈,即MLP块的隐藏维度比输入维度宽4倍
    倒置瓶颈

大内核

change
改变依据:

  1. Vision Transformer最显著的一方面是:非局部自注意力,这使得每一层都有一个全局接受域;
  2. Transformer的MSA块放置在MLP层之前,所以如果要增大卷积核就需要将深度卷积位置上移,即复杂低效的模块(MSA,大核卷积)有更少的通道放前面,高效密集的小核卷积放后面完成更繁重的工作。

分层微设计

change
注释:

  1. ResNet 和 ResNeXt 残差块
    shortcut block
  2. ResNet中下采样是通过每个阶段开始时的残差块实现的,即使用步长为2的33卷积;
    在 残差连接 处使用步长为2的1
    1卷积实现;
  3. 在空间分辨率发生变化的地方添加归一化层有助于稳定训练;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值