目标检测—DiffusionDet:用于检测的概率扩散模型笔记

DiffusionDet是一种新型目标检测模型，通过概率扩散模型将目标检测转化为从噪声框到目标框的逆过程。在训练阶段，模型学习如何从随机分布的噪声框恢复到GT框。在推理阶段，模型能逐步改善预测结果。实验证明，DiffusionDet在MS-COCO和LVIS数据集上表现出良好性能，并展示了随机框在目标检测中的有效性。

DiffusionDet：将目标检测问题构建为一个从带噪框到目标框的降噪扩散过程。在训练阶段，目标框从GT框扩散到随机分布，模型学习如何逆转这个噪声过程；在推理阶段，模型将一系列随机的框逐步改善为输出结果。在MS-COCO和LVIS数据集上，DiffusionDet和已有的目标检测器相比具有较好的性能。本文在目标检测方面带来了两个重要发现：1. 随机的框虽然和预设的anchors或者学习好的queries有很大的不同，但也是有效的目标候选者；2. 目标检测这种代表性的感知任务，也可以通过生成方式解决。

一、Introduction

目标检测的目的是预测一幅图像中目标对象的一组边界框和相关的类别标签。作为一项基本的视觉识别任务，它已成为许多相关识别场景的基石，如实例分割、姿态估计、动作识别、目标跟踪和视觉关系检测。

现代对象检测方法的发展随着候选对象的发展而不断发展，即从经验对象先验（faster-Rcnn、SSD等）到可学习的对象查询（ViT,Sparse r-cnn,DETR)。具体来说，大多数检测器通过对经验设计的候选对象定义代理回归和分类来解决检测任务，如滑动窗口、区域建议、锚框和参考点。DETR 提出了可学习的对象查询来消除手工设计的组件，并建立了一个端到端检测管道，这在基于查询的检测范式上引起了极大的关注。它们依赖于一组固定的可学习的查询。是否有一种更简单的方法，甚至不需要可学习查询的代理？我们设计一个新的框架，可以直接检测来自一组纯随机box中的对象，它不包含在训练中进行优化的可学习参数，我们期望逐步细化这些盒子的位置和大小，直到它们完美地覆盖目标对象。

动机如下图所示。认为 noise-to-box 范式的哲学类似于去噪扩散模型中的噪声到图像过程，这是一类基于似然的模型，通过学习的去噪模型逐步从图像中去除噪声来生成图像。扩散模型在许多生成任务[3,4,37,63,85]中取得了巨大的成功，并开始在图像分割[1,5,6,12,28,42,89]等感知任务中进行探索

DiffusionDet，将检测作为生成任务投射在图像中的位置（中心坐标）和边界框的空间和大小（宽度和高度）上来处理目标检测任务。在训练阶段，将由

方差 schedual控制的高斯噪声添加到groundtruth 中，获得噪声box。
然后利用这些噪声box，从backbone encoder（如ResNet Swin）的输出特征图中，裁剪感兴趣区域（RoI）特征。
最后，将这些RoI特征发送到检测 decoder，来预测无噪声的gt box。有了这个训练目标，扩散网能够从随机盒子中预测地面真实盒子。

推理阶段，扩散det通过反转学习扩散过程生成边界盒，将噪声先验分布调整到边界框上的学习分布。

DiffusionDet的 noise to box 具有 Once-for-All 的优点：我们可以对网络进行一次训练，并在不同的设置下使用相同的网络参数进行推理。

动态框：利用随机个 box 作为候选对象，DiffusionDet 解耦训练和评估。可以用N随机box进行训练，同时用N随机box进行评估（N是任意值）
渐进式细化：扩散模型的迭代细化，有利于优化扩散模型。可调整去噪采样步骤的数量来提高检测精度或加快推理速度，这种灵活性使其能够适应不同的检测场景。

二、相关工作

1.目标检测

大多数现代 object detection 方法对经验目标先验进行边框回归和类别分类，如proposal、anchor、point方法。Carion等人提出了DETR ，使用一组固定的可学习查询来检测对象。我们利用 DiffusionDet 进一步推进了目标检测pipline 的开发，如图所示。