1. LSKA介绍
1.1 摘要:具有大内核注意力(LKA)模块的视觉注意力网络(货车)已被证明在一系列基于视觉的任务上提供了卓越的性能,超过了视觉转换器(ViTs)。然而,这些LKA模块中的深度卷积层随着卷积核大小的增加而导致计算和内存占用的二次增加。为了缓解这些问题,并在货车的注意力模块中使用极大的卷积核,我们提出了一系列大型可分离核注意力模块,称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平和垂直1-D核。与标准LKA设计相比,所提出的分解能够直接使用注意力模块中具有大内核的深度卷积层,而不需要任何额外的块。我们证明,建议的LSKA模块在货车可以实现与标准LKA模块相当的性能,并产生较低的计算复杂度和内存占用。我们还发现,建议的LSKA设计偏置的货车更多地朝向物体的形状比纹理与增加内核大小。此外,我们在货车,ViTs和最近的ConvNeXt中对LKA和LSKA的鲁棒性进行了基准测试,这些测试是在以前的工作中基本上未探索过的ImageNet数据集的五个损坏版本上进行的。我们广泛的实验结果表明,在货车中提出的LSKA模块提供了显着降低计算复杂性和内存占用的增加内核大小,同时优于ViTs&