论文:Deformable Convolutional Networks
论文链接:https://arxiv.org/abs/1703.06211
代码链接:https://github.com/msracver/Deformable-ConvNets
这一篇是ICCV2017关于目标检测的文章,出发点在于图像任务中目标的尺寸、形状变化不一,虽然现有的深度网络对此有一定的特征提取能力,但并不是最优的,因此通过在卷积层中引入offset(deformable convolution)和在RoI pooling层中引入offset(deformable RoI pooling)提高网络的特征提取效果,这个offset的作用是使网络在提取特征时更多的注意力能聚焦到和训练目标相关的位置,能够更好地覆盖不同尺度和形状的目标,而且由于offset也是在监督信息的指导下进行学习的,因此不用像数据增强一样需要先验知识才能有好的效果。
Figure2是deformable convolution的示意图,整体上可以分成2部分,第一部分是基于输入特征图生成offset,第二部分是基于输入特征图和offset通过deformable convolution生成输出特征图。假设输入特征图高和宽分别是h和w,第二部分的卷积核尺寸是kh和kw。那么第一部分卷积层的卷积核数量是2×kh×kw,这个2表示x轴和y轴两个方向上的偏移值,而且输出特征图的宽高和输入特征图的宽高一样,这样offset的维度就是[batch_siz