点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
作者:Sik-Ho Tsang
编译:ronghuaiyang
导读
对DCN,DCNv1进行了升级,更多的可变形,更好的结果。
Deformable RoI Pooling本文回顾了由中国科技大学和微软亚洲研究院(MSRA)联合发布的Deformable ConvNets v2 (DCNv2)。在这篇文章中,DCNv2对DCNv1进行了增强,DCNv1发布于2017 ICCV,引入了一个额外的调制模块来对输入特征的幅度从不同的空间位置上进行修正,DCNv2发布于2019 CVPR上。
主要内容
DCNv1的简单回顾
DCNv2中的调制可变性模块
R-CNN特征模拟
一些分析
实验结果
1. DCNv1的简单回顾
1.1. 可变形卷积
DCNv1中的可变形卷积规则卷积是在规则网格上操作的。
可变形卷积在R上操作,但每个点都增加了一个可学习的偏移量∆pn。
卷积用来生成2N个特征图,对应N个2D偏移量∆pn(x方向和y方向各一个偏移)
如上所示,可变形卷积会根据输入图像或feature map选取不同位置的值进行卷积。
1.2. 可变形RoI池化
DCNv1中的可变形RoI池化常规的RoI池化将输入任意大小的矩形区域转换为固定大小的特征。
在可变形RoI池化中,首先,在上面的路径上,我们仍然需要常规的RoI pooling来生成池化后的feature map。
然后,通过一个全连接(fc)层生成归一化的偏移量∆pij,然后转换为偏移量∆pij,其中, γ=0.1,公式在右边
偏移归一化是必要的,使偏移学习具有RoI的尺度不变性。
最后,在下面的路径上,我们执行可变形的RoI池化。输出的feature map在偏移之后的区域上进行池化。
2. DCNv2 中的调制可变形模块
2.1. DCNv2 中的调制可变形卷积
在DCNv2中,每个样本不仅需要学习DCNv1中的偏移量,而且还要通过学习到的特征幅度进行调制。这个网络模块因此能够改变其样本的空间分布和相互之间的影响。
Δmk是第k个位置的调制标量。(k是卷积网格的表示位置的数字)
调制标量Δmk的取值范围为[0,1] 。
Δpk和Δmk可在相同的输入特征图x上,分别通过一个单独的卷积得到。
该卷积层与当前卷积层具有相同的空间分辨率和膨胀度。
输出通道数为3K,其中前面的2K通道对应学习到的偏移Δpk,剩下的K个通道再送到sigmoid层得到调制标量Δmk。
2.2. DCNv2中的调制的可变形RoI池化
类似的,在RoI pooling中, Δmk加到输入特征上用来在学到的偏移位置上调制特征的幅度。
3. R-CNN特征模拟
使用R-CNN特征模拟进行网络训练特征模拟损失与Deformable Faster R-CNN的每个RoI特征合并,迫使这些特征和来自裁剪过的图像的R-CNN特征相似。
这个辅助训练目标是为了驱动Deformable Faster R-CNN去学习像R-CNN一样更加“聚焦”的特征表示。
这个特征模拟损失定义为R-CNN和Faster R-CNN的特征之间的余弦距离。
网络训练由特征模拟损失和R-CNN的分类损失以及Faster R-CNN中原有的损失来驱动,新引入的两个损失的权重都是0.1。
在推理的时候,只有Faster R-CNN网络用来测试图像,不需要辅助R-CNN的分支。因此,引入R-CNN特征模拟在推理的时候也没有额外的计算量。
4. 分析
第一行:有效的采样位置,第二行:有效的感受野,第三行:误差有界的显著性区域(在c中,有效的采样区域和b中一样,因此被省略了)有效的采样区域:通过卷积得到采样位置
有效的感受野:网络节点感受野内的所有像素对其响应的贡献并不相等。这些贡献的差异由一个有效感受野来表示,它的值被计算为节点响应相对于每个图像像素的强度扰动的梯度。
误差有界的显著性区域:如果我们移除不影响网络节点的图像区域,网络节点的响应不会改变,这在最近的图像显著性研究中得到了证明。基于此属性,我们可以确定一个节点的支持区域为与整个图像具有相同响应的最小图像区域,在此区域内误差范围较小。
与DCNv1相比,DCNv2中增强的可变形模块的空间支持对图像内容具有更好的适应性.
5. 实验结果
5.1. 调制的可变形卷积 & 调制的可变形RoI池化
在COCO 2017验证集上目标检测和实例分割的结果(输入图像短边为1000像素)上面的表格中Faster R-CNN和使用ResNet-50的Mask R-CNN用来作为基线。
只使用规则卷积,Faster R-CNN目标检测32.1% AP,Mask R-CNN实例分割为32.2% AP。
使用了DCNv1中的可变形卷积,在conv5中使用,使用了aligned RoI pooling的Faster R-CNN为38.0% AP,Mask R-CNN为35.3% AP。
使用DCNv2调制的可变形卷积,在conv3和conv5中使用,并使用调制可变形RoI pooling,Faster R-CNN为41.7% AP,Mask R-CNN为37.3% AP。
5.2. R-CNN 特征模拟
只是考虑了前景物体的特征模拟损失,就可以得到最高的AP。
5.3. Backbone 的变化
主干的各种变化使用更深和更好的主干,比如ResNeX,可以得到更高的AP。
5.4. ImageNet 图像分类任务
在验证集上Top-1和Top-5的分类准确率作者还尝试了ImageNet的图像分类任务。
DCNv2在基于规则卷积核DCNv1的基线上都得到了显著的提升,而且只增加了很小的计算量。
—END—
英文原文:https://medium.com/towards-artificial-intelligence/review-dcnv2-deformable-convnets-v2-object-detection-instance-segmentation-3d8a18bee2f5
请长按或扫描二维码关注本公众号
喜欢的话,请给我个在看吧!