关注公众号,发现CV技术之美
▊ 写在前面
在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域。标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这会导致较高的计算成本。
而本文的DRConv使用可学习的指导将增加的滤波器转移到空间维度,这不仅提高了卷积的表示能力,而且保持了计算成本和标准卷积的平移不变性 。DRConv是处理复杂多变空间信息分布的一种有效而优雅的方法,由于其即插即用的特性,它可以代替现有网络中的标准卷积。
作者在广泛的模型(MobileNet系列、ShuffleNet V2等)和任务(分类、人脸识别、检测和分割)上评估了DRConv。在ImageNet任务上,基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds计算量水平上实现了67.1%的SOTA性能,相对baseline提高了6.3% 。
▊ 1. 论文和代码地址
Dynamic Region-Aware Convolution
论文地址:https://arxiv.org/abs/2003.12243
代码地址:未开源
▊ 2. Motivation
卷积神经网络(CNNs)由于其强大的表示能力,在图像分类、人脸识别、目标检测等许多应用领域取得了重大进展。CNN强大的表示能力源于不同的滤波器负责在不同的抽象级别的信息提取。
然而,当前主流的卷积运算是以滤波器共享的方式跨空间域执行的,因此只有在重复应用这些卷积运算时,才能捕获更有效的信息(比如用更多的滤波器来增加通道数和深度)。但这种方式会带来几个局限性:首先,它的计算效率很低 ;其次,滤波器数量的增加会导致优化的困难 。
与滤波器共享的方法不同,为了对更多的视觉元素进行建模,目前一些研究侧重于通过在空间维度上使用多个滤波器来利用语义信息的多样性。比如,一些方法在每个像素上都使用单独的滤波器的替代卷积(在文中这类方法成为局部卷积),因此,每个位置的特征将被用不同方式地处理,这比标准卷积能够更有效地提取空间特征。虽然与标准卷积相比,局部卷积并没有增加计算复杂度&