DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection个人理解

最新推荐文章于 2024-06-03 09:55:25 发布

deeping games

最新推荐文章于 2024-06-03 09:55:25 发布

阅读量1.4k

点赞数 2

文章标签：目标检测 r语言 cnn

本文链接：https://blog.csdn.net/qq_43523858/article/details/130719497

版权

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

这篇文章呢，没有什么特别的tricks，就是通过就FasterRCNN进行改进，从一个与以往不同的视角来分析如何针对小样本目标检测来改进，在前大多数方法采用的FasterRCNN方法，还是有一定的参考意义，同时也是取得了比较好的性能。

发布于 ICCV2021

论文地址：https://ieeexplore.ieee.org/document/9710347/

Abstract

提出两个问题：

RPN与RCNN的多阶段矛盾
分类与定位的多任务矛盾

提出解决办法：

GDL(Gradient Decoupled layer)对多阶段解耦，重新定义了特征前向操作和梯度回传操作，来解耦其结构之前和之后一层。
PCB(Prototypical Calibration Block)对多任务解耦，即采用一个脱机(即事先训练好的)的基于原型的分类器，利用额外的score 来校准分类为得分。

1. Introduction

传统的FasterRCNN没有考虑基于小样本情景下的问题，这就限制了其上限，(即使得无法针对小样本目标检测有着较大提升)，主要是两个方面的问题，也是Abstract中介绍的问题。

当类不可知的RPN(在RPN中只区别正负样本，不区分类别)与类相关的RCNN通过共享的backbone进行联合优化时，其会导致冲突。
RCNN的box regressor需要平移可变性特征，而box classifer需要平移不变性特征。
这两方面的问题就会严重限制检测器的性能。于是呢，作者就想到可以将这两问题进行解耦，
在backbone与RCNN，RPN这三个模块之间加入一个模块，通过梯度来调整解耦程度。
在分类分支上，加入一个分数校准模块，来解耦两个head。
希望达到的效果如下图所示：

具体操作：

在backbone与RCNN Head,RPN两条路之间都加入一个GDL模块，在前向-后向传播过程中，GDL对前向特征进行一个可学习的放射变换，将后向梯度乘以一个常量，从而达到多阶段之间的解耦。

在分类分支上，添加PCB模块，PCB是经过在ImageNet上预训练过和一组新类支持原型的模块，然后将小样本检测器生成的region proposals作为输入，使用额外的基于原型的成对分数来提高原始softmax的得分。
可以看下面这张图还是很好get到的。
在这里插入图片描述

2.Related Work

这部分就不介绍了。。。。只需要一点本文采用的是基于微调方法。

3.Methods

3.1. Problem Setting

Problem of multi-task learning

具体地说，通过利用从硬参数共享[42]主干中提取的特征映射，RPN旨在生成与类别无关的区域建议，以告诉网络在哪里查找，而RCNN的目标是逐个类别地执行基于区域的检测，以确定要查找什么。此外，分类头需要平移不变特征，而定位头需要平移协变特征。

Problem of shared backbone

在这个两阶段的跨域过程中，RPN可能会受到前景和背景的混淆，这意味着在基础训练阶段属于背景的建议很可能在新的微调阶段出现在前景中。通过RPN的梯度，共享卷积层将基类上的过度拟合趋势传播到主干和RCNN。虽然这是在基本域上表现良好的收敛方案之一，但它潜在地损害了快速有效地转移到新集合的能力，特别是在数据稀缺的情况下。

3.3. Decoupled Faster R-CNN

3.3.1 Gradient Decoupled Layer

GDL的实现是通过两阶段，在前前向过程中，使用一个仿射变换层A,来增强特征表示并执行前向解耦。在反向传播过程中，将后一层的梯度乘以一个常量λ ∈ [0, 1]，传递到上一层
在这里插入图片描述
数学上公式可定义为：

其中A是仿射变换层，雅可比∈[0，1]是解耦系数，∇A是来自仿射层的λ矩阵。
这是作者实现的伪代码，还是很简单来实现的。

更正式地，我们考虑具有两个独立GDL的以下损失函数：
在这里插入图片描述

这里，G·是我们在本节中提出的梯度解耦层，θb、θRPN和θRCNn分别是主干、RPN和RCNN的可学习参数。
与Faster R-CNN的优化目标一致，我们为函数式5寻求最优参数θb、θRPn和θRCNn，记为Θ
在这里插入图片描述
其中N是训练样本的数量，L来自公式5。具体地，梯度下降步骤可以被描述为

其中γ是学习速率，λ1和λ2分别是随机神经网络和随机神经网络的去耦合系数。从公式8和公式9可以看出，加入GDL并不影响RPN和RCNN的优化。然而，在公式7中，共享骨干网的参数更新受GDL的影响很大。我们主要分析了三种重要的情况：(1)RPN 1=0(或RCNN 2=0)，等价于停止来自λ(或λ)的梯度，而θb的更新将仅由λ(或λ)主导；
(2)θ1λ(0，1](或λ2∈(0，1])，它等价于从RPN(或RCNN)缩放梯度，这意味着λ(或λ)对共享骨干网的更新有单独的贡献；(3)λ1=λ2=̃λ，相当于将主干的学习率γ乘以一个小系数，即̃λ，保证了θb的更新速度慢于θrpn和θrcnn。请注意，λ<0对于检测没有意义，补充材料中提到了更多关于λ的讨论。

3.3.2 Prototypical Calibration Block

我们注意到，未被充分挖掘的少镜头分类分支生成了大量低质量的分数，这促使我们通过引入用于分数细化的原型校准块(PCB)来消除高分数的假阳性并修复低分数的缺失样本。我们的PCB由来自ImageNet预训练模型的强分类器、RoIAlign层和原型库组成。
在这里插入图片描述

在给定支持集为S的M路K镜头任务的情况下，PCB首先提取原始图像特征图，然后使用RoIAlign和地面真值盒来生成M K实例表示。基于这些特征，我们将支持集S缩减为具有等式10的原型库P={PC}cm=1
在这里插入图片描述
其中，Sc是包含S中具有相同标签c的样本的子集。给定由微调的少镜头检测器产生的对象建议ˆyi=(ci，si，bi)，其中bi是框边界，ci是预测类别，si是对应的分数，PCb首先对预测框bi执行RoIAlign以生成对象特征xi，然后计算xi和pci之间的余弦相似度Scos i
在这里插入图片描述
最后，我们对来自PCB板的‡I和来自少射探测器的SI进行加权聚合，以得到最终的分类分数S SCOS I如下：

其中，α是权衡的超级参数.

4. Experiments

Evaluation setting

包括少镜头目标检测(FSOD)和广义少镜头目标检测(G-FSOD)。前者被大多数以前的方法[5，19，51，53]广泛采用，并且只关注新类的性能。然而，后者提出不仅要观察新类别的性能，而且要观察少镜头检测器的基础和整体性能，它更全面，并监控灾难性遗忘的发生[46]。

4.2. Comparison Results

下面分别是在VOC数据集和COCO数据集上的结果。
在这里插入图片描述
(1)对于FSOD设置，新镜头的增加并不一定会导致最终性能的提高。以小说集1为例，5枪的AP50为64.1%，10枪的AP50为60.8%(-3.3%)。TFA也有类似的情况。我们推测，在数据稀缺的情况下，样本的质量是至关重要的，添加低质量的样本可能会对检测器造成损害。(2)对比实验发现，随着激发次数的增加，G-FSOD的最终性能增长速度要快于FSOD(40.2%→66.5%vs.53.6%→60.8%)，这是由于在G-FSOD设置下增加了更多的负样本所致。
在这里插入图片描述
此外，与基于微调的方法相比，DeFRCN的可学习参数个数与FRCN-ft几乎相同，而比TFA多得多。

这一巨大的上升表明我们提出的DeFRCN在跨域情况下具有更好的泛化能力。

4.3. Ablation Study

在这里插入图片描述
接下来，我们采取四个渐进的步骤来完成我们的DeFRCN的探索：(1)在基础训练阶段添加GDL(GDL-B)。通过第1-4行和第5-8行的结果，我们发现GDLB在基类上提高了0.6%，在新类上也有一定的改进(0.3%∼2.1%)。这表明较好的基模型有利于小激发探测器的性能。(2)在新的微调阶段(GDL-N)加入GDL。第一排和第三排的测试结果表明，GDL-N算法对10/30镜头有7.3%/6.8%的惊人提升，这主要来自两个方面：一是更多的可学习参数保证了足够的转移到新结构域的能力；二是GDL大大降低了过拟合的风险。(3)在推理阶段增加了印刷电路板。由于印刷电路板是一个即插即用的模块，所以无论增加哪种印刷电路板，我们的模型在地图上都会进一步获得1.4%∼2.6%的点数。(4)最后，将上述三个模块集成到原FRCN中，最后一行显示了DeFRCN的最终性能。与第一排的测试结果相比，对于10/30的投篮，我们获得了10.6%/10.4%的惊人提升，这证明了我们方法的有效性
在这里插入图片描述
无论是在基础训练阶段，还是在新的微调阶段，当λRPN设置为较小的值(接近于0)时，模型倾向于获得更高的性能，而λRCNN需要适当的值来确保更好地优化骨干网。这一观察结果提示我们在DeFRCN对RPN进行停止梯度和对RCNN进行尺度梯度。
在FRCN主干优化方面，RPN在这一过程中起到负面作用(39.01比38.39)，而RCNN有积极作用(31.56比38.39)。
在这里插入图片描述
由于它所解决的问题(即更快的R-CNN中的矛盾)也可能存在于传统的检测中，我们猜想我们的GDL在数据充足的情况下也是有效的。

5. Conclusion

本文深入研究了少镜头目标检测的视觉任务，提出了一种简单而有效的精调框架–解耦Faster R-CNN，通过引入新颖的GDL和PCB，显著缓解了传统Faster R-CNN在数据稀缺场景下的潜在矛盾。