在本文中,提出了一种新的大核注意力large kernal attention(LKA)模型, LKA吸收了卷积和自我注意的优点,包括局部结构信息、长程依赖性和适应性。同时,避免了忽略在通道维度上的适应性等缺点。作者进一步介绍了一种基于LKA的新型神经网络,即视觉注意网络(VAN)。VAN在图像分类、目标检测、实例分割、语义分割方面,都”远远超过了”SOTA的CNN和视觉transformer。
原文地址:https://arxiv.org/abs/2202.09741
相关工作
CNN
学习特征表示(feature representation)很重要, CNN因为使用了局部上下文信息和平移不变性,极大地提高了神经网络的效率。在加深网络的同时,网络也在追求更加轻量化。本文的工作与MobileNet有些相似,把一个标准的卷积分解为了两个部分:一个depthwise conv,一个pointwise conv。本文把一个卷积分解成了三个部分:depthwise conv, depthwise and dilated conv 和pointwise conv。我们的工作将更适合高效地分解大核