DCNv2阅读笔记

本文是对DCNv1的改进版本。
DCNv1通过学习偏移增大卷积的感受野,虽然增大的感受野对任务是有帮助的,但是增大的部分可能远远超过了我们需要的部分,有点过犹不及,使得提取出的特征包含无关的图像信息。所以本文的主要目标就是解决这个问题。首先作者在网络中更大规模的使用变形卷积,提升网络的建模能力。其次通过老师网络指导主干网络对偏移的学习,控制其范围。(有点博弈的意思)
作者回顾了DCNv1提出的可变形卷积与DCN ROI Pooling。通过可视化DCN训练中的感受野变化,作者发现感受野的激活点主要集中在目标的周围,但是对目标的覆盖却是不精确的,甚至超出了ROI区域。
所以作者提出更广泛的使用DCN,在不同的层次使用DCN,可以在更广泛的特征层次提取特征。第二是在学习偏移的基础上,再学习系数,使得卷积不仅在位置上得到了学习,对该位置的权重也进行了学习。
为了不让感受野无限制扩张,作者从知识蒸馏中获得了灵感,使用R-CNN网络指导DCN的学习。因为R-CNN仅关注于图像中包含目标的位置(简单说就是个分类网络),所以使用单纯的分类网络指导DCN能够使DCN更好的关注于目标。
为了更好的理解DCN的表现,作者根据有效感受野、有效采样位置和误差边界感知区域对网络节点的空间分布进行可视化。
有效感受野:并不是感受野内的所有像素都对最后的相应有相同的贡献。贡献的不同可以通过有效感受野来表示,它的值是在每一像素上进行添加强扰动而对该采样点产生响应的导数(我的字面理解,具体请看 U n d e r s t a n d i n g t h e e f f e c t i v e r e c e p t i v e f i e l d i n d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k s Understanding the effective receptive field in deep convolutional neural networks Understandingtheeffectivereceptivefieldindeepconvolutionalneuralnetworks.)
有效采样点:几层卷积后通过累积导数算出之前几层参与过计算的点。
错误边界显著区域:就是能产生正确输出的最小区域,再缩小输出就改变。
计算在Faster-RCNN+ResNet50+aligned Pooling上做的。效果图如下:
在这里插入图片描述
1.传统的卷积也能在一定程度上对目标的几何形状进行建模;2.引入了DCN是的对目标的几何建模性能显著增强,可以看到其分布更关注于图像内容,比如前景基本覆盖目标,背景的区域也更大了。但这种分布可能不太精确,前景在有效感受野和错误边界感知区域上都显示其包含了与结果无关的背景信息;3.对于传统的卷积,虽然在grid里进行操作,但是其空间支持,也就是对目标建模是通过权重计算的,DCN同样如此,不过多了个偏移,单独验证采样位置,会对DCN产生错误的认识。(第三条是在反驳上面的那篇论文?)
作者也提到了ROI Pooling中也存在这样的问题,因为无用信息的存在,使得结果受到干扰。
所以改进的目标就是使DCN更关注于与内容有关的区域。
首先当然是多用DCN模块了。其次增加了调节机制。就是在每个位置进行x和y轴两个方向偏移的同时再学习其权重,
在这里插入图片描述
Δ m k \Delta m_k Δmk就是新增的权重。
第二就是使用知识蒸馏,用老师网络指导学生网络,这算自蒸馏?
在这里插入图片描述
先用带有DCN的网络提取特征图,再训练RPN网络。RPN网络提取出的图像区域就是单纯的目标区域,可以理解为分类区域。再用带有DCN的网络对RPN提取出的图像进行提取,得到输入特征的一个表征,这个表征与检测网络输出的表征计余弦相似度,计算公式为:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值