ConvNeXt视频学习笔记

霹雳吧啦Wz

ConvNeXt网络详解_霹雳吧啦Wz-CSDN博客

ResNeXt算法详解_AI之路-CS​​​​​​DN博客_resnext

ResNeXt事实上改变了ResNet的每一个block为分组卷积

在ResNeXt的视频中关于分组卷积和深度可分离卷积的关系有一个这样的解读

 在下半部分中,如果输出通道数等于输入通道数,而且group数也等于输入通道数,即用1个卷积核单独处理每个通道,就是深度可分离卷积,就是mobileNet

这篇博客的几张插图也画的很好

conNeXt说DW卷积很像transformer特征图的加权求和,意思就是DW卷积是在每一个通道上的加权求和

VIT中的MLP是用来提取分类token特征去做分类的头部

———————————————————————————————————————————

1、

卷积的能力很大程度上来源于平移不变性和权重共享。

VIT最需要改进的方面是的全局注意力设计,它具有关于输入大小的二次复杂性。这对于ImageNet分类来说可能是可以接受的,但是使用更高分辨率的输入很快就会变得难以处理。

swin transformer是结合cnn和transformer领域的里程碑工作,首次展示了Transformers可被用作通用视觉主干,并在图像分类之外的一系列计算机视觉任务中实现最先进的性能。

我们的研究旨在弥合前VIT时代和后VIT时代ConvNet之间的差距,并测试纯ConvNet所能实现的极限。

2、

2.1

mixup

cutmix

Randaugment:也是一个不需要学习的数据增强

label smooth

Stochas- tic Depth

2.2

改变了各层block的比例,同时保持着整体param不变

把resnet本来的stem改为了non-overlapping convolution ,stem本来的作用是 

a common stem cell will aggressively downsample the input images to an appropriate feature map size in both standard ConvNets and vision Transformers

还有一点区别是,vision transformer 的stem用的都是 non-overlapping convolution. ,就是swin transformer在下采样的过程是使用的是window ,而window之间是不重合的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值