Deformable ConvNets v2: More Deformable, Better Results
https://arxiv.org/abs/1811.11168v2 link.
文章主要针对Deformable Convolutional Networks的几何变化可能超出目标区域,从而导致特征被图像的其他无关内容影响的问题进行改进,从而提出了Deformable ConvNets v2。
改进主要在于两点:首先是可变形卷积层的扩展;通过为更多卷积层增加偏移学习(卷积层的堆叠),DCNv2可以在更广泛的特征级范围内控制采样。第二是可变形卷积模块中的调制机制,每个样本不仅具有经学习得到的偏移,而且还被特征幅度调制。
为了更好的理解可变形卷积网络,文章引入了三个概念:
- 有效感受野(effective receptive fields):感受野内的点对响应的贡献是不等的,文章用有效感受野来描述这种不等的贡献,其值为节点响应相对于每个像素的强度扰动的梯度。
- 有效采样位置(effective sampling locations):为了理解可变形卷积网络,卷积层和池化层的采样位置都可以可视化,但这些采样点对网络节点的影响或者贡献是不明确的;使用节点对采样点的梯度描述这种贡献。
- error-bounded saliency regions:如果去掉不影响网络节点的图像区域,那么节点响应是不改变的。基于这种性质,文章定义了error-bounded saliency regions:能够产生和全图同等响应(响应之差小于某个较小的阈值)的最小图像区域(support region);简单的说就是利用一个mask挡住图像部分区域,产生的响应和全图输入时的响应小于某个值,那么这个区域就属于error-bounded saliency regions;这样便于比较不同网络的支持区域。
下图展示了conv5的最后一层中节点的相关信息,从上到下三行分别表示effective receptive fields、effective sampling locations、error-bounded saliency regions。a、b、c图分别是常规卷积、DCN v1、DCN v2的结果:
- 常规的ConvNets能够在一定程度上对几何变化建模,主要得益于深度网络强大的表征能力。
- 可变形卷积的引入增强了网络度几何变换的建模能力,表现为前景节点包含整个目标,背景节点包含更大的上下文。然而support region存在不准确的情况;前景节点的effective receptive fields和error-bounded saliency regions包含了与检测不相关的背景区域。
- 这里使用的三种可视化方式比DCN v1中使用的采样位置更能反映网络获得的信息。在常规的ConvNet在网格上具有固定的采样位置,但实际上它可以通过网络权重来调整其有效的support region。 可变形卷积受偏移量和网络权重的共同影响。
下图显示了每个RoI检测头中2fc节点的spatial support:
前景上的bin通常会在分类分支产生较大的梯度,从而对预测产生更大的影响。由于引入了可学习的偏移量,Deformable RoIpooling与aligned RoIpooling相比,覆盖前景的Bin比例要大得多。同时,aligned RoIpooling和Deformable RoIpooling中的error-bounded saliency regions没有完全集中在前景目标上,这可能导致RoI之外的内容会影响预测结果。
Modulated Deformable Modules
为了进一步增强可变形卷积网络控制support region的能力,文章引入了一种调制机制,使Deformable Convolutional Network不仅可以学习调整偏移量,还可以调制不同空间位置的输入特征幅度。在极端情况下,模块可以将其特征幅度置零,不感知来自特定位置的信号。调制项:
DCN v1:
y ( p 0 ) = ∑ p n ∈ R w ( p n ) ⋅ x ( p 0 + p n + Δ p n ) \mathbf{y}\left(\mathbf{p}_{0}\right)=\sum_{\mathbf{p}_{n} \in \mathcal{R}} \mathbf{w}\left(\mathbf{p}_{n}\right) \cdot \mathbf{x}\left(\mathbf{p}_{0}+\mathbf{p}_{n}+\Delta \mathbf{p}_{n}\right) y(p0)=pn∈R∑w(pn)⋅x(p0+p