
Sparse Large Kernel Network - SLaK训练,没错这就是全网你唯一能找到的教程!
由于ViTs的出现将原来的视觉任务的准确率几乎都刷了一遍,于是便有人着手去研究为什么ViTs的效果会这么好。他们得到的其中一个结论是,ViTs可以建立长程依赖,换句话说就是ViTs拥有更大的核(kernel),对应ViTs中便是的window_size。因此有研究尝试使用更大的卷积核来替换传统的3×33\times 33×3卷积核,经过实验,发现这样做可以提升CNN的性能,并能够和ViTs相媲美。

















