摘要
文章提出了一种名字叫动态区域感知卷积(DRConv)的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域。标准卷积层通常通过增加滤波器的数量提取更多信息,但有较高的计算成本。而DRConv可以自动分配多个滤波器到具有相似特征表示的相应空间区域,不仅可以提高卷积的表示能力,而且保持了与标准卷积相似的计算成本和平移不变性。
论文地址:Dynamic Region-Aware Convolution
思想
主流卷积操作多使用权重共享的方式,通过增加channel或使用更多filters增加模型的深度,来提取更多信息。这样会造成计算上有更大的开销,也更难优化。局部卷积分别处理每个位置的特征,但使用了更多的参数,破坏了平移不变性,且不同的输入样本所使用的filters是共享的,导致模型对不同样本中的特殊特征不敏感。
基于这些问题文章提出了区域动态感知卷积,如图1所示:
图1
DRConv中区域个数为
m
m
m。DRConv使用标准的
k
×
k
k\times k
k×k卷积从
X
X
X获得guided featrue;然后使用
G
(
⋅
)
G(\cdot)
G(⋅) filter generator module获得
m
m
m个filters。如guided mask所示,空间域被分为m个区域,每个区域拥有一个对应的filter
W
i
W_i
Wi(其在此区域中被共享)。之后在这些区域中使用使用各自对应的filter进行
k
×
k
k\times k
k×k卷积,获得输出
Y
Y
Y 。
DRConv可以动态的为使用可学习instructor划分的不同空间域分配对应的filters,因此DRConv在拥有强大的语义表达能力的同时,保证了平移不变性。
具体方法
Dynamic Region-Aware Convolution
定义guided maskKaTeX parse error: Expected '}', got 'EOF' at end of input: …S_0,...,S_{m-1}来表示将空间维度划分为的
m
m
m个区域,每个区域
S
t
,
t
∈
[
0
,
m
−
1
]
S_t,t\in [0,m-1]
St,t∈[0,m−1]只对应一个filter。卷积核集
W
=
[
W
0
,
.
.
.
,
W
m
−
1
W=[W_0,...,W_{m-1}
W=[W0,...,Wm−1其中的filter
W
t
∈
R
C
W^t\in R^C
Wt∈RC对应与区域
S
t
S_t
St ,那么第o个channel的输出特征可以表示为:
DRConv主要分为两步:
1.使用可学习的guided mask对空间进行区域划分。从图像语义角度来讲,就是将语义相似的特征分配到同一个区域内。
2.在每个区域内,使用通过filter generator module生成的filters中对应于该区域的filter,在区域内共享这个filter进行卷积操作。
Learnable guided mask
这个模块的作用是划分出使用同一个filter的区域,即,确定filter在空间维度上的分布。
Dynamic Filter: Filter generator module
filter generator module
G
(
⋅
)
G(\cdot)
G(⋅)则需要根据不同输入样本具有的不同特征,动态的为不同区域设计生成对应的filters。
图2
DRConv中filter生成器结构如图2所示,首先使用AAP(自适应平均池化)将 X X X进行下采样到 k × k k\times k k×k大小。然后输入第一个 1 × 1 1\times 1 1×1 卷积层,其使用 s i g m o i d ( ⋅ ) sigmoid(\cdot) sigmoid(⋅)作为激活函数,得到的大小为 k × k × m 2 k\times k\times m^2 k×k×m2 。接着继续输入第二个 1 × 1 1\times 1 1×1卷积层,不使用激活函数,得到的大小为 k × k × ( m × O × C ) k\times k\times (m\times O\times C) k×k×(m×O×C),即生成了 m m m个大小为 k × k k\times k k×k 的filters。
实验
图3
图3展示了在ImageNet分类任务上,将不同的轻量级网络的卷积替换为DRConv的实验结果,可以看出DRConv能够显著提升模型的性能,并且对于不同的网络都是有用的。
在人脸识别、目标检测和分割任务上,相比于baseline,本文方法能够明显提高性能,证明了DRConv的有效性。
在不同模型大小下,和baseline方法的对比,本文的方法在小模型上能够实现更显著的性能提升,因为通过用DRConv取代标准卷积,小型模型将显著提高其建模语义信息的能力,从而获得更好的性能。