引言
由尺寸,位置,视野,部分变形成为目标识别检测中的一个挑战。DCNv1 介绍了两个模型,
(1)可变形卷积:标准卷积网格采样点的位置都是前面预处理feature map学习的偏移。
(2)可变形RoIpooling,其中,偏移学习RoIPooling中的bins的位置。将上述两个模型嵌入到神经网络中可以按照目标物的特性进行特征表示,通过变形采样及池化模式来适应目标物体的结构。基于上述方法,大幅度提高了目标检测的效果。
为了理解可变形卷积,通过在VOC图像上采样点的位置上增加偏移,并可视化其引起的感受野的变化。观察发现,激活单元的采样位置多聚集在目标物体附近。然而,对目标物体的覆盖并不准确,存在感兴趣区域之外的采样点。通过COCO数据集对图像的空间支持做了深入的分析发现,上述覆盖不准确的现象更加明显,这些发现表明对可变形卷积学习还有更多的潜力。
本文提出的新型可变形卷积网络,成为Deformable ConvNet V2,通过增强的建模能力来对可变形卷积进行学习。主要通过两部分来增强模型:
(1)扩大网络中可变形卷积的使用。使用更多偏移学习的卷积层,使DCNv2在更广的特征层级上进行采样。
(2)可变形卷积模块的调制机制,每个采样点被学习过的偏移及特征的幅度同时进行调制。因此,网络能够改变样本点的空间分布,同时可以控制其相对影响。
为了进行有效的训练,受神经网络中知识蒸馏相关工作的启发。本文利用了“教师”网络,在进行训练时,其提供相应的指导。本文使用R-CNN作为教师网络。由于R-CNN用于对crop后的图像内容进行分类的网络,因此,不受感兴趣区域之外的信息影响。DCNv2为了模仿这个属性,在训练时增加了一个“特征模仿损失”,用于学习与R-CNN一致的相关特征。基于此方法,增强后的可变形采样为DCNv2提供了较强的训练信号。
经过上述改变后,DCNv2仍为轻量级同时可以嵌入到常规网络中,本文主要嵌在Faster R-CNN及Mask R-CNN上,在COCO数据集的检测和分割任务上进行实验,均有较大改进。
相关工作
Deformation Modeling:在深度学习时代之前,值得注意的作品包括尺度不变特征变换SIFT (《Object recognition from local scale-invariant features》)、ORB (《Orb: an efficient alternative to sift or surf》),以及DPM(《Object detection with discriminatively trained part-based models》)。这些作品受到手工特征的劣势限制,
Relation Networks and Attention Modules:最近,《Relation networks for object detection》和《Relation networks for object detection》的并发工作成功扩展了与图像域的关系网络和注意模块,分别用于建模长期目标-目标和像素-像素关系。在《Learning region features for o