Deformable ConvNets v2算法笔记

最新推荐文章于 2025-01-14 01:00:00 发布

AI之路

最新推荐文章于 2025-01-14 01:00:00 发布

阅读量1.1w

点赞数 18

分类专栏：深度学习计算机视觉目标检测-object detection

本文链接：https://blog.csdn.net/u014380165/article/details/88072737

版权

本文详细介绍了Deformable ConvNets v2的改进，包括在更多层中应用deformable convolution，引入modulation以提高准确性，以及通过RCNN feature mimicking增强训练。实验表明这些改进显著提升了目标检测性能，特别是在处理形变目标时。此外，还探讨了如何通过调整输入图像尺寸影响常规卷积与Deformable ConvNets v2的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Deformable ConvNets v2: More Deformable, Better Results
论文链接：https://arxiv.org/abs/1811.11168

这篇博客介绍个人非常喜欢的一篇目标检测文章：DCN v2，也就是Deformable ConvNets论文的升级版，效果提升很明显，思想很简洁。主要的改进包括：
1、在特征提取网络的更多层中引入deformable convolution结构，从后面的实验来看，这个操作虽然简单，但是效果提升非常明显，只不过在v1论文中使用PASCAL VOC数据集，所以难以观察到这部分提升。
2、改进deformable结构，我们知道不管是deformable convolution还是deformable RoI pooling，主要通过引入offset，使得特征提取过程能够更加集中于有效信息区域，而这篇论文在v1的基础上引入了modulation，modulation简单而言就是权重，通过分配不同权重给经过offset修正后的区域，实现更加准确的特征提取。
3、第2点的想法很好，但是从作者的实验来看（Table1或Table2的最后2行），仅仅通过第2点带来的提升还是比较有限的，主要原因在于现有的损失函数难以监督模型对无关紧要的区域设置较小的权重，因此在模型训练阶段引入RCNN feature mimicking，这部分受论文Revisiting rcnn: On awakening the classification power of faster rcnn的启发，不过实现方式不一样，这篇文章通过联合训练RCNN网络提供有效的监督信息，发挥modulation的权重作用，使得提取到的特征更加集中于有效区域，因此和第2点是紧密结合的。

首先看看这篇文章用到的3个可视化指标，参看Figure1，Figure1是关于常规卷积、DCNv1和DCNv2的对比图，用来说明Deformable convolution的效果。
1、effective sampling locations，也就是有效的计算区域，这个在DCNv1论文中看得比较多了，简而言之就是几个卷积层叠加后从输出中的某个点往前推算出参与该点计算的特征点区域，在Figure1中就是往前推算3层得到的图，因此点数最多为9^3=729，常规卷积因为有重叠，所以看到的只有49个（a中第一行），可变卷积因为涉及越界，所以实际点数少于7

最低0.47元/天解锁文章