(四十四)论文阅读 | 目标检测之OneNet


简介

在这里插入图片描述

图1:论文原文

鉴于以前模型大多仅使用位置代价或分类代价作为筛选正样本的准则,论文提出将二者和作为标签分配的因素。这样,对于每个真实框,仅将最小代价对应的样本作为正样本,避免了非极大值抑制等后处理操作,实现模型的端到端预测。论文原文 源码


0. Abstract

一阶段端到端目标检测模型进展缓慢,作者发现标签分配中的样本和真实标注之间的分类代价是该类模型的主要问题所在。当前现存的一阶段检测器仅依据位置大家分配标签,这在推理阶段会得到许多高得分的边界框,进而需要依靠非极大值抑制等后处理方法来获得最终的检测结果。

作者提出基于最小代价分配来设计一阶段端到端检测器,该代价为样本与真实标注的分类代价和位置代价之和。对于每个真实框,仅将最小代价对应的样本作为正样本,其他所有样本均为负样本。

论文贡献:(一)基于分类代价和位置代价的准则筛选正样本;(二)每个真实框仅对应一个正样本,避免了非极大值抑制等后处理;(三)实现模型的端到端预测。


1. Introduction

如何定义正负样本是当前目标检测模型所面临的一大挑战。通常,如果候选框与真实框的交并比大于某个设定的阈值,则视其为正样本。作者将这一过程称为基于边界框分配。如:

在这里插入图片描述

另一类目标检测方法不需要预先设定锚框,而是直接将特征图上的点作为训练样本。这时,标签分配则是根据点到框各边界的距离而定。作者将这一过程称为基于点分配。如:

在这里插入图片描述

基于边界框分配和基于点分配都面临着多对一分配的基本问题。对于一个真实框,存在着多个正样本与之对应。而模型性能与分配过程的超参数设置密切相关,同时也会产生大量冗余的样本,进而需要非极大值抑制等后处理过程。

近来,一对一分配的方法被应用在稀疏候选框和多阶段检测模型上,这时每个真实框仅有一个与之对应的正样本。这类方法提高了模型性能,同时不需要非极大值抑制等后处理过程。作者进而考虑在一阶段端到端的模型上应用这种一对一分配的机制。

首先,直观的想法是直接将多对一的分配更改成一对一的分配。但是,如果不做任何其他处理,这类改动会显著降低模型的性能。同时,在推理阶段,模型仍会产生大量冗余的高置信度预测结果,同样无法避免引入后处理方法。

作者进而发现标签分配中的样本和真实标注之间的分类代价是该类模型的主要问题所在,作者通过对比先前的一阶段目标检测模型,提出在标签分配过程中应同时考虑分类代价和位置代价。

为了设计一阶段端到端目标检测模型,论文提出一种高效的分配策略,最小代价分配,该代价为样本与真实标注的分类代价和位置代价之和。具体地,对于每个真实框,仅将最小代价对应的样本作为正样本,其他所有样本均为负样本。如:
在这里插入图片描述

基于最小代价分配机制,作者设计了 O n e N e t {\rm OneNet} OneNet,其主要特点如下:

  • 整个模型是全卷积端到端结构,没有感兴趣区域或注意力机制的使用;
  • 基于最小代价分配实现标签分配;
  • 无任何后处理过程。

基于位置代价的标签分配使用广泛,但作者发现正是这一点成为了端到端检测模型提升的主要障碍。作者指出产生该结果的原因是标签分配与网络优化之间的不一致。目标检测是一个包含分类与定位的多任务模型,基于位置代价得到的正样本仅能够最优化定位任务,而无法保证分类任务的优化。最优的解决方案是每个目标仅对应一个预测结果。同时,如果仅考虑位置代价,分类分支会强制输出符合优化定位任务的结果,这就造成了多预测结果的产生。


2. Related Work

Object detection One-Stage detector Two-stage detector

End-to-end object detection 当前的端到端目标检测模型基于稀疏候选框或多阶段检测。 D E T R {\rm DETR} DETR提出不使用手工设计的标签分配和后处理过程,直接得到预测结果。其可以被看做是第一个端到端目标检测模型,它使用一组基于图像全局特征的稀疏目标集合。得益于全局注意力机制以及预测结果与真实标注之间的二分匹配, D E T R {\rm DETR} DETR无需任何后处理过程。 D e f o r m a b l e {\rm Deformable} Deformable- D E T R {\rm DETR} DETR提出使用更加严格的机制来得到目标集合,从而得到更高质量的样本。 S p a r s e {\rm Sparse} Sparse- R C N N {\rm RCNN} RCNN使用一组固定的可学习的稀疏先验框,然后以迭代的方式在检测头执行分类和回归。


3. Label Assignment

3.1 Matching Cost

位置代价定义为: C l o c = λ i o u ⋅ C i o u + λ L 1 ⋅ C L 1 (1) \mathcal C_{loc}=\lambda_{iou}\cdot\mathcal C_{iou}+\lambda_{L1}\cdot\mathcal C_{L1}\tag{1} Cloc=λiouCiou+λL1CL1(1)

其中, C L 1 \mathcal C_{L1} CL1 C i o u \mathcal C_{iou} Ciou分别为 L 1 L1 L1损失和 I o U IoU IoU损失,在基于边界框分配中, λ L 1 = 0 \lambda_{L1}=0 λL1=0;在基于点分配中, λ i o u = 0 \lambda_{iou}=0 λiou=0

在基于位置代价的标签分配中,由于目标检测是一个多任务模型,仅考虑位置因素会带来分类性能的次优解。为了缓解这一问题,作者提出在端到端模型中同时引入分类代价,总代价即为分类代价和位置代价之和。 C = λ c l s ⋅ C c l s + C l o c (2) \mathcal C=\lambda_{cls}\cdot\mathcal C_{cls}+\mathcal C_{loc}\tag{2} C=λclsCcls+Cloc(2)

3.2 Minimum Cost Assignment

对于每个真实框,仅将最小代价对应的样本作为正样本,其他所有样本均为负样本。
在这里插入图片描述

关键语句是_, src_ind = torch.min(cost_mat, dim=0),选择总代价最小的样本作为正样本。在密集型检测模型中,总损失定义如下: C = λ c l s ⋅ C c l s + λ L 1 ⋅ C L 1 + λ g i o u ⋅ C g i o u (3) \mathcal C=\lambda_{cls}\cdot\mathcal C_{cls}+\lambda_{L1}\cdot\mathcal C_{L1}+\lambda_{giou}\cdot\mathcal C_{giou}\tag{3} C=λclsCcls+λL1CL1+λgiouCgiou(3)


4. OneNet

在这里插入图片描述

图2:Pipeline of OneNet

(图貌似错了,分类分支的特征图通道数应该为对应数据集的类别数。)

4.1 Multi-head Training

在这里插入图片描述

图3:Multi-head Training

Cascading heads 在第一阶段,输入特征 F 0 F_0 F0 H / 4 × W / 4 × C H/4\times W/4\times C H/4×W/4×C广播为 H / 4 × W / 4 × 2 C H/4\times W/4\times 2C H/4×W/4×2C,然后经由卷积操作得到大小为 H / 4 × W / 4 × C H/4\times W/4\times C H/4×W/4×C的输出特征 F 1 F_1 F1。在后续阶段 j j j,原始大小为 H / 4 × W / 4 × C H/4\times W/4\times C H/4×W/4×C的输入特征 F 0 F_0 F0与前一阶段大小为 H / 4 × W / 4 × C H/4\times W/4\times C H/4×W/4×C的特征 F j − 1 F_{j-1} Fj1在通道维度拼接,得到输出大小为 H / 4 × W / 4 × 2 C H/4\times W/4\times 2C H/4×W/4×2C的输出特征。最后,该输出特征作为检测头的输入得到分类分支和回归分支。

Weight-sharing 所有检测头的分类分支和回归分支共享权重。

Larget learning rate 在带有级联结构和权重共享检测头的模型中,直接提高学习率将增加模型性能。

Single-head Inference 在推理阶段,仅将第一阶段的输出作为最后的预测。与使用所有阶段相比,这种方法会略微降低检测精度,但同时也会减少计算量。


5. Experiments

在这里插入图片描述

图4:Visualization of the positive sample

第一行表示仅使用位置代价,第二行表示同时使用分类代价和位置代价,框表示真实框,圆点表示正样本。仅使用位置代价时,正样本接近于真实框的中心位置;加入分类代价后,正样本的位置更加具有代表性。
在这里插入图片描述

图5:Ablation on Label Assignment

由上表结果可见,是否使用非极大值抑制对最小代价分配并无显著影响。此外,如果不适用分类代价,非极大值抑制等后处理方法对模型性能影响较大。
在这里插入图片描述

图6:Ablation on Multi-head Training

在这里插入图片描述

图7:Comparison of CenterNet and OneNet

在这里插入图片描述

图8:Effect of classification cost on sparse detectors


6. Conclusion

作者提出共同使用分类代价和位置代价作为筛选正样本的准则,并且每个真实框仅对应一个正样本,该样本对应总代价最小。这样,模型无需非极大值抑制等后处理操作,实现了模型的端到端检测。


参考

  1. Sun P, Jiang Y, Xie E, et al. OneNet: Towards End-to-End One-Stage Object Detection[J]. arXiv preprint arXiv:2012.05780, 2020.


  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值