论文阅读笔记之Deformable ConvNets v2

最新推荐文章于 2023-01-09 21:57:36 发布

AICVer

最新推荐文章于 2023-01-09 21:57:36 发布

阅读量601

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u011489887/article/details/85064235

版权

深度学习专栏收录该内容

61 篇文章 1 订阅

订阅专栏

摘要：可变形卷积网络的优越性能产生于它适应物体几何变化的能力。通过对自适应行为的实验，我们观察到虽然对其神经特征的空间支持比常规ConvNets更接近于对象结构，但是这种支持可能远远超出感兴趣区域，导致特征受不相关图像内容影响。为了解决这个问题，我们提出了可变形ConvNets的一种重构，通过增强建模能力和加强训练，提高了其聚焦于图像相关区域的能力。在卷积网络中，通过更全面的变形卷积集成，并通过引入扩展变形范围的调制机制建模，增强了建模能力。为了得到更好的建模能力，我们通过提出的特征模仿策略来指导网络训练学习反映了对象焦点和分类能力的特征。新的变形ConvNets的版本比原始模型产生显著的性能提升，并产生领先目标检测的COCO基准测试结果和实例分割结果。

V2说V1存在的问题是在RoI外部的这种几何变化适应性表现得不好，导致特征会受到无关的图像内容影响（this support may nevertheless extend well beyond the region of interest，causing features to be influenced by irrelevant image content）。
为了分析Deformable ConvNet（DCN），首先介绍本文提到的三个概念：

有效感受野（Effective receptive fields）：网络中每个节点都会计算feature map的一个像素点，而这个点就有它自己的感受野，但是不是感受野中的所有像素对这个点的响应的贡献都是相同的，大小与卷积核权重有关，因此文中用有效感受野来表示这种贡献的差异。

有效采样/bin位置（Effective sampling/bin locations）：对于卷积核的采样点和RoIpooling的bin的位置进行可是有助于理解DCN，有效位置在反应采样点位置的基础上还反应了每个位置的贡献。

错误边界显著性区域（Error-bounded saliency regions）：最近关于图像显著性的研究表明，对于网络的每个节点的响应，不是图像上所有的区域对其都有影响，去掉一些不重要的区域，节点的响应可以保持不变。根据这一性质，文章将每个节点的support region限制到了最小的可以和整幅图产生相同的响应的区域，并称之为错误边界显著性区域。

下图展示了普通卷积的有效采样位置，有效感受野和错误边界显著性区域，作者发现虽然采样点始终是矩形，但是普通的卷积可以通过卷积核的参数适应一定的几何形变。反观DCN，能够使得卷积操作更集中在想要关心的位置。
本文对V1做了3方面的改进：增加可变形卷积的层数，增加可调节的可变形模块，采用蒸馏的方法模仿RCNN的特征

Stacking More Deformable Conv Layers
v1中使用的ResNet-50，只将conv5中的共3层3x3卷积换成了可变形卷积，本文则将conv3，conv4和conv5中一共12个3x3的卷积层都换成了可变形卷积。v1中发现对于pascal voc这样比较小规模的数据集来说，3层可变形卷积已经足够了。同时错误的变形也许会阻碍一些更有挑战性的benchmark上的探索。作者实验发现在conv3到conv5中使用可变形卷积，对于COCO上的object detection来说，是效率和精度上最好的均衡。

Modulated Deformable Modules
v1仅仅给普通的卷积的采样点加了偏移，v2在此基础上还允许调节每个采样位置或者bin的特征的amplitude，就是给这个点的特征乘以个系数，如果系数为0，就表示这部分区域的特征对输出没有影响，所以这也是一种调节support region的方法。

上式就是一个v2的可变形卷积操作的公式，其中△p_k和△m_k分别是采样点k的位置偏移和特征调节系数。要注意的是△p_k和△m_k分别是由不同卷积核得到的，这些卷积层都以特征x作为输入。假设有K个采样点（3x3卷积9个采样点），那么上面卷积层的分辨率和x相同，但是输出有3K个通道，2K对应每个采样点的△p_k（x，y两个方向），K个对应△m_k（要经过sigmoid）。特别重要的是得到△p_k和△m_k的卷积核的参数一开始一定要初始为0，△p_k和△m_k的初始值则为0和0.5。这些新加入的卷积层的学习率则是现有的层的0.1。

可调节的RoIpooling也是类似的，公式如下

上式是求第k个bin的特征值，该bin对应的像素点个数为n_k个，x(p_kj+△p_k)代表bin_k内的像素点j偏移后的像素值，由双线性插值得到。

AICVer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读笔记之Deformable ConvNets v2

摘要：可变形卷积网络的优越性能产生于它适应物体几何变化的能力。通过对自适应行为的实验，我们观察到虽然对其神经特征的空间支持比常规ConvNets更接近于对象结构，但是这种支持可能远远超出感兴趣区域，导致特征受不相关图像内容影响。为了解决这个问题，我们提出了可变形ConvNets的一种重构，通过增强建模能力和加强训练，提高了其聚焦于图像相关区域的能力。在卷积网络中，通过更全面的变形卷积集成，并通过引...
复制链接

扫一扫