（四十四）论文阅读 | 目标检测之OneNet_关于onenet的相关论文-CSDN博客

本文链接：https://blog.csdn.net/Skies_/article/details/112332400

简介

在这里插入图片描述

图1：论文原文

鉴于以前模型大多仅使用位置代价或分类代价作为筛选正样本的准则，论文提出将二者和作为标签分配的因素。这样，对于每个真实框，仅将最小代价对应的样本作为正样本，避免了非极大值抑制等后处理操作，实现模型的端到端预测。论文原文源码

0. Abstract

一阶段端到端目标检测模型进展缓慢，作者发现标签分配中的样本和真实标注之间的分类代价是该类模型的主要问题所在。当前现存的一阶段检测器仅依据位置大家分配标签，这在推理阶段会得到许多高得分的边界框，进而需要依靠非极大值抑制等后处理方法来获得最终的检测结果。

作者提出基于最小代价分配来设计一阶段端到端检测器，该代价为样本与真实标注的分类代价和位置代价之和。对于每个真实框，仅将最小代价对应的样本作为正样本，其他所有样本均为负样本。

论文贡献：（一）基于分类代价和位置代价的准则筛选正样本；（二）每个真实框仅对应一个正样本，避免了非极大值抑制等后处理；（三）实现模型的端到端预测。

1. Introduction

如何定义正负样本是当前目标检测模型所面临的一大挑战。通常，如果候选框与真实框的交并比大于某个设定的阈值，则视其为正样本。作者将这一过程称为基于边界框分配。如：

在这里插入图片描述

另一类目标检测方法不需要预先设定锚框，而是直接将特征图上的点作为训练样本。这时，标签分配则是根据点到框各边界的距离而定。作者将这一过程称为基于点分配。如：

在这里插入图片描述

基于边界框分配和基于点分配都面临着多对一分配的基本问题。对于一个真实框，存在着多个正样本与之对应。而模型性能与分配过程的超参数设置密切相关，同时也会产生大量冗余的样本，进而需要非极大值抑制等后处理过程。

近来，一对一分配的方法被应用在稀疏候选框和多阶段检测模型上，这时每个真实框仅有一个与之对应的正样本。这类方法提高了模型性能，同时不需要非极大值抑制等后处理过程。作者进而考虑在一阶段端到端的模型上应用这种一对一分配的机制。

首先，直观的想法是直接将多对一的分配更改成一对一的分配。但是，如果不做任何其他处理，这类改动会显著降低模型的性能。同时，在推理阶段，模型仍会产生大量冗余的高置信度预测结果，同样无法避免引入后处理方法。

作者进而发现标签分配中的样本和真实标注之间的分类代价是该类模型的主要问题所在，作者通过对比先前的一阶段目标检测模型，提出在标签分配过程中应同时考虑分类代价和位置代价。

为了设计一阶段端到端目标检测模型，论文提出一种高效的分配策略，最小代价分配，该代价为样本与真实标注的分类代价和位置代价之和。具体地，对于每个真实框，仅将最小代价对应的样本作为正样本，其他所有样本均为负样本。如：
在这里插入图片描述

基于最小代价分配机制，作者设计了 ${\rm OneNet}$ ，其主要特点如下：

整个模型是全卷积端到端结构，没有感兴趣区域或注意力机制的使用；
基于最小代价分配实现标签分配；
无任何后处理过程。

基于位置代价的标签分配使用广泛，但作者发现正是这一点成为了端到端检测模型提升的主要障碍。作者指出产生该结果的原因是标签分配与网络优化之间的不一致。目标检测是一个包含分类与定位的多任务模型，基于位置代价得到的正样本仅能够最优化定位任务，而无法保证分类任务的优化。最优的解决方案是每个目标仅对应一个预测结果。同时，如果仅考虑位置代价，分类分支会强制输出符合优化定位任务的结果，这就造成了多预测结果的产生。

2. Related Work

Object detection One-Stage detector Two-stage detector

End-to-end object detection 当前的端到端目标检测模型基于稀疏候选框或多阶段检测。 ${\rm DETR}$ 提出不使用手工设计的标签分配和后处理过程，直接得到预测结果。其可以被看做是第一个端到端目标检测模型，它使用一组基于图像全局特征的稀疏目标集合。得益于全局注意力机制以及预测结果与真实标注之间的二分匹配， ${\rm DETR}$ 无需任何后处理过程。 ${\rm Deformable}$ - ${\rm DETR}$ 提出使用更加严格的机制来得到目标集合，从而得到更高质量的样本。 ${\rm Sparse}$ - ${\rm RCNN}$ 使用一组固定的可学习的稀疏先验框，然后以迭代的方式在检测头执行分类和回归。

3. Label Assignment

3.1 Matching Cost

位置代价定义为： $\mathcal C_{loc}=\lambda_{iou}\cdot\mathcal C_{iou}+\lambda_{L1}\cdot\mathcal C_{L1}\tag{1}$

其中， $\mathcal C_{L1}$ 和 $\mathcal C_{iou}$ 分别为 $L 1$ 损失和 $I o U$ 损失，在基于边界框分配中， $\lambda_{L1}=0$ ；在基于点分配中， $\lambda_{iou}=0$ 。

在基于位置代价的标签分配中，由于目标检测是一个多任务模型，仅考虑位置因素会带来分类性能的次优解。为了缓解这一问题，作者提出在端到端模型中同时引入分类代价，总代价即为分类代价和位置代价之和。 $\mathcal C=\lambda_{cls}\cdot\mathcal C_{cls}+\mathcal C_{loc}\tag{2}$

3.2 Minimum Cost Assignment

对于每个真实框，仅将最小代价对应的样本作为正样本，其他所有样本均为负样本。
在这里插入图片描述

关键语句是_, src_ind = torch.min(cost_mat, dim=0)，选择总代价最小的样本作为正样本。在密集型检测模型中，总损失定义如下： $\mathcal C=\lambda_{cls}\cdot\mathcal C_{cls}+\lambda_{L1}\cdot\mathcal C_{L1}+\lambda_{giou}\cdot\mathcal C_{giou}\tag{3}$

4. OneNet

在这里插入图片描述

图2：Pipeline of OneNet

（图貌似错了，分类分支的特征图通道数应该为对应数据集的类别数。）

4.1 Multi-head Training

在这里插入图片描述

图3：Multi-head Training

Cascading heads 在第一阶段，输入特征 $F_0$ 由 $H/4\times W/4\times C$ 广播为 $H/4\times W/4\times 2C$ ，然后经由卷积操作得到大小为 $H/4\times W/4\times C$ 的输出特征 $F_1$ 。在后续阶段 $j$ ，原始大小为 $H/4\times W/4\times C$ 的输入特征 $F_0$ 与前一阶段大小为 $H/4\times W/4\times C$ 的特征 $F_{j-1}$ 在通道维度拼接，得到输出大小为 $H/4\times W/4\times 2C$ 的输出特征。最后，该输出特征作为检测头的输入得到分类分支和回归分支。