Multi-Scale Positive Sample Refinement for Few-Shot Object Detection

最新推荐文章于 2023-11-15 18:03:31 发布

没拖拉机的斯基

最新推荐文章于 2023-11-15 18:03:31 发布

阅读量1.1k

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/weixin_40096160/article/details/117154008

版权

论文阅读专栏收录该内容

14 篇文章 2 订阅

订阅专栏

Multi-Scale Positive Sample Refinement for Few-Shot Object Detection

来源：https://arxiv.org/abs/2007.09384 ECCV2020

简介

尺度不变性在一般的有监督的目标检测器中得到广泛研究，对于少样本目标检测（FSOD）的影响特别大，在样本数量有限的情况下，尺度问题更复杂。如下图所示，样本数量少的情况下目标尺度分布会比大量样本的情况下更加发散。
特征金字塔网络建立多个尺度的特征图来检测不同大小的目标，被认为是一种有效的解决尺度问题的方案。特征金字塔网络确实对于少样本目标检测有一定的好处，但是并不能减少新类数据尺度分布的差异。
考虑图片金字塔，对于一张图片建立多个尺度的表示，允许检测器捕获不同尺度的目标，尽管这种方法被期望减小两个尺度分布之间的差异，但是多尺度的输入导致不合适的负样本的出现，这些样本包含正样本的部分区域。对于数据充足的情况下，网络可以抑制这种消除这个问题的影响，但是对于少样本目标检测是非常有害的，因为 FSOD 的语义和尺度分布非常稀疏和偏向的。
因此本文提出 Multi-scale Positive Sample Refinement (MPSR) 方法来解决少样本目标检测中目标尺度稀疏分布的挑战。

背景

少样本目标检测的方案- 目标类别分成两个部分：基础类别和新类别

目标类别分成两个部分：基础类别和新类别
训练过程分成两个阶段：基础训练阶段使用大量的基础类别进行训练；微调阶段使用少量的基础类别和新类别进行训练。k-shot采样策略分为采样k个包含某一类别的图片和采样k个包含某一类别的标记框，本文采用后者。
本文采用 Faster RCNN 作为少目标检测的基本框架，主要包括两个重要部分：
- Region Proposal Network（RPN）
  判断是否包含目标和边框回归，损失函数表示如下
  
  L_Bcls为二值交叉熵损失，L_Preg 为smooth L₁损失
- Detection Head（RoI）
  判断目标的具体类别和边框回归，损失函数表示如下
  
  L_Kcls为K个类的对数损失。
  整体损失为两者相加。

实验探究

FPN for Multi_Scale Detection
通过实验证明FPN对于少样本目标检测是有用的，同时也作为了本文的第二个baseline，但是FPN不能消除新类数据分布稀疏的问题。
Image Pyramids for Multi-Scale Training
使用图片金字塔作为数据增强的一种方式，理论上可以解决尺寸分布稀疏的问题，但是对于FSOD来说，会增加不合理负样本的数量。如下图所示，左图红色标注框对于右上的图片是负样本，但对于右下的图片来说是正样本。

多尺度正样本增强

多尺度正样本增强分支

根据之前的实验探究，文章采用FPN作为faster rcnn的backbone，同时为了丰富正样本的尺度，独立地抽取出每个目标并将目标变换到不同的尺度，称作目标金字塔。具体来说，通过一个方框来裁剪目标，并将其尺寸变换到 {32²,64²,128²,256²,512²,800²} ，再将图片送入特征金字塔，手工选取相应尺度的特征图送入RPN head 和 detection head做增强。
在这里插入图片描述
对于不同尺寸图片生成的特征金字塔，送入 RPN 和 Detection head 进行预测的层是不同的。

对于 FPN 生成的多尺度特征图 {P₂,P₃,P₄,P₅,P₆} 分别代表锚框为 {32²,64²,128²,256²,512²} ，对于给定的一个目标，只有一个相应的层被激活，选择方式如上表所示，同时为了模拟预测在中心位置，选择该层的中心的四个特征点来进行目标增强。
对于 RoI head，只有 {P₂,P₃,P₄,P₅} 被选择，也只有一个相应的层被激活，选择方式如上表所示，选取的特征图池化到相同的尺寸进行分类预测。

整体框架

在这里插入图片描述
如上图所示，整体框架包括Faster RCNN和一个增强分支，两个分支会输出是否包含目标和具体类别的分数，Faste RCNN 的 RPN head 和MPSR分支的损失函数定义如下：

M_obj选择增强的正样本数量。
RoI head 和 MPSR 分支的损失函数定义如下：
在这里插入图片描述
M_RoI是 MPSR 中选择的 RoI的数量，在 RPN head 中 M_obj 的大小和 N_obj 的大小很接近，但是 RoI head 中 M_RoI 是比 N_RoI 相对小，所以增加了 λ 参数。