ResNeXt算法详解_AI之路-CSDN博客_resnext
ResNeXt事实上改变了ResNet的每一个block为分组卷积
在ResNeXt的视频中关于分组卷积和深度可分离卷积的关系有一个这样的解读
在下半部分中,如果输出通道数等于输入通道数,而且group数也等于输入通道数,即用1个卷积核单独处理每个通道,就是深度可分离卷积,就是mobileNet
conNeXt说DW卷积很像transformer特征图的加权求和,意思就是DW卷积是在每一个通道上的加权求和
VIT中的MLP是用来提取分类token特征去做分类的头部
———————————————————————————————————————————
1、
卷积的能力很大程度上来源于平移不变性和权重共享。
VIT最需要改进的方面是的全局注意力设计,它具有关于输入大小的二次复杂性。这对于ImageNet分类来说可能是可以接受的,但是使用更高分辨率的输入很快就会变得难以处理。
swin transformer是结合cnn和transformer领域的里程碑工作,首次展示了Transformers可被用作通用视觉主干,并在图像分类之外的一系列计算机视觉任务中实现最先进的性能。
我们的研究旨在弥合前VIT时代和后VIT时代ConvNet之间的差距,并测试纯ConvNet所能实现的极限。
2、
2.1
Randaugment:也是一个不需要学习的数据增强
2.2
改变了各层block的比例,同时保持着整体param不变
把resnet本来的stem改为了non-overlapping convolution ,stem本来的作用是
a common stem cell will aggressively downsample the input images to an appropriate feature map size in both standard ConvNets and vision Transformers
还有一点区别是,vision transformer 的stem用的都是 non-overlapping convolution. ,就是swin transformer在下采样的过程是使用的是window ,而window之间是不重合的