（三十七）论文阅读 | 目标检测之PAA

最新推荐文章于 2024-05-26 10:01:49 发布

zhangts20

最新推荐文章于 2024-05-26 10:01:49 发布

阅读量3k

点赞数 3

分类专栏：论文阅读文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Skies_/article/details/108992149

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

论文聚焦的是在目标检测中的 ${\rm Anchor}$ 分配问题，我们知道， ${\rm Anchor}$ 的分配策略是一个非常重要的环节，这往往决定了后续的边界框回归等操作，进而影响模型最终的性能。论文基于高斯混合模型，提出将 ${\rm Anchor}$ 的得分视为一种概率。同时， ${\rm Anchor}$ 质量的评价指标由分类得分、定位得分和模型参数共同决定。实验结果为采用新的分配策略后，模型在 ${\rm COCO}$ 数据集上达到 ${\rm SOTA}$ 。论文原文源码

0. Abstract

在目标检测中，其中一个核心步骤是确定某 ${\rm Anchor}$ 是属于正样本还是负样本，这往往会决定最终模型的性能。论文提出一种新的 ${\rm Anchor}$ 分配策略，它根据模型的训练状态以概率的形式自适应地为 ${\rm Anchor}$ 分配标签。首先，基于模型本身计算 ${\rm Anchor}$ 的得分，并基于分数得到一个概率分布；其次，基于 ${\rm Anchor}$ 的概率将其划分为正样本和负样本。此外，作者调研了训练和测试之间的差异，引入一个预测交并比的分支作为预测框的衡量标准。提出的新匹配策略仅在 ${\rm RetinaNet}$ 中添加单个卷积层，并且不需要在同个位置设置多个 ${\rm Anchor}$ 。

论文贡献：（一）基于高斯混合模型提出基于概率的 ${\rm Anchor}$ 分配策略；（二）基于投票机制的后处理方法；（三）基于新的 ${\rm Anchor}$ 分配策略的模型达到 ${\rm SOTA}$ 。

1. Introduction

对于 ${\rm Anchor}$ 的分配策略，最常用的是在 ${\rm Faster}$ - ${\rm RCNN}$ 等中基于交并比的方式。如果先验框同真实框的交并比大于给定的正阈值，则将其视为正样本；如果先验框同真实框的交并比小于给定的负阈值，则将其视为负样本。然后基于真实目标的类别和位置执行回归操作。上述方式虽简单便捷，但同时也存在天生的缺陷。该策略仅考虑了交并比单个因素，而没有关注先验框内的具体内容，如背景噪声会对该分配策略造成较大的影响等。

论文基于前人工作，提出一种新的 ${\rm Anchor}$ 分配策略。为了使得最终的分配过程高效，正负样本的数量不应仅基于交并比这一个标准，还要根据模型此时的推理结果。所以，模型应该参与 ${\rm Anchor}$ 分配这一过程，即正负样本的分配依赖于模型本身。如当没有 ${\rm Anchor}$ 与真实框有较高的交并比时，应适当挑选一些 ${\rm Anchor}$ 作为正样本。在该情况下，模型找到一组高质量的 ${\rm Anchor}$ 作为正样本。另一方面，所有高质量的 ${\rm Anchor}$ 都应该作为正样本参与训练。其中最重要的一点是，高质量 ${\rm Anchor}$ 的选取应该基于模型当前的状态。

论文提出一种基于概率的 ${\rm Anchor}$ 分配的策略， ${\rm PAA}$ ，它以自适应的方式生成一组正负样本。首先，基于分类和回归的结果为每个 ${\rm Anchor}$ 定义分数，该分数通过损失函数值得到；然后基于模型的状态定义每个 ${\rm Anchor}$ 的最终得分。基于这些得分，找到一个概率分布用于表征正负样本。然后，基于概率分布，将概率更高的 ${\rm Anchor}$ 视为正样本。这就将 ${\rm Anchor}$ 的分配问题转化成概率分布的极大似然估计问题。最后，由于正样本是通过 ${\rm Anchor}$ 的得分分布确定，所以不需要事先预定义正负样本的数量。

在这里插入图片描述

图2：Anchor得分计算及其分布

经调研，作者发现当前目标检测模型存在训练（最小化分类和回归损失）与测试（仅依赖于分类得分的非极大值抑制）不一致的情况。理想情况下，检测框的质量应该由分类和回归共同决定。由此，论文提出将交并比乘以分类得分作为衡量检测框质量的最终标准。

在这里插入图片描述

图3：PAA流程及其对比

2. Related Work

Anchor Assignment in Object Detection ${\rm MetaAnchor}$ 定义一个基于 ${\rm Anchor}$ 的函数，其输入是 ${\rm Anchor}$ 的宽和高，这使得在训练和测试过程中可以动态地改变 ${\rm Anchor}$ 的形状； ${\rm GuidedAnchoring}$ 将真实框中心周围的 ${\rm Anchor}$ 作为正样本； ${\rm FreeAnchor}$ 将准确率和召回率共同作为决定 ${\rm Anchor}$ 正负性的依据； ${\rm ATSS}$ 基于 ${\rm Anchor}$ 的交并比的均值和方差，自适应地确定 ${\rm Anchor}$ 的正负性。

${\rm MAL}$ 和 ${\rm NoisyAnchor}$ 使用分类和回归结果共同决定 ${\rm Anchor}$ 的正负性。但这类方法也是选择固定数量的最佳 ${\rm Anchor}$ 作为正样本，而没有基于概率动态地选择正负样本。 ${\rm MAL}$ 在训练过程中线性地减少正样本的数量； ${\rm NoisyAnchor}$ 在训练过程中固定 ${\rm Anchor}$ 的数量，但也没有直接地将 ${\rm Anchor}$ 的选择与非极大值抑制等后处理操作联系起来。

Predicting Localization Quality in Object Detection ${\rm YOLO}$ 和 ${\rm YOLOv2}$ 将交并比和分类得分的乘积作为边界框的最终得分； ${\rm IoU\ Net}$ 提出使用基于交并比的 ${\rm NMS}$ 。

3. Proposed Methods

3.1 Probabilistic Anchor Assignment Algorithm

论文的想法是将三个关键的因素考虑进 ${\rm Anchor}$ 的采样中：首先，使用模型来衡量 ${\rm Anchor}$ 的质量；其次，自适应的方式将 ${\rm Anchor}$ 划分正负性；最后，分配策略基于概率最大化。

具体地，将 ${\rm Anchor}$ 的分数定义为能够反应预测框的质量，直观的做法是将分类分数和回归得分相乘，即： $S(f_{\theta}(a,x),g)=S_{cls}(f_{\theta}(a,x),g)×S_{loc}(f_{\theta}(a,x),g)^{\lambda}\tag{1}$

$S_{cls}$ 和 $S_{loc}$ 分别表示分类和回归得分， $\lambda$ 用于控制两个乘积项的权重， $x$ 和 $f_{\theta}$ 分别表示输入图像和带参数 $\theta$ 的模型。则我们可以使用分类头的输出定义 $S_{cls}$ 的值，使用交并比定义 $S_{loc}$ 的值： $S_{loc}(f_{\theta}(a,x),g)={\rm IoU}(f_{\theta}(a,x),g)\tag{2}$

对式（1）添加负对数，得到： $\begin{aligned} -\log S(f_{\theta}(a,x),g)&=-\log S_{cls}(f_{\theta}(a,x),g)-\lambda \log S_{loc}(f_{\theta}(a,x),g) \\ &=\mathcal L_{cls}(f_{\theta}(a,x),g)+\lambda \mathcal L_{IoU}(f_{\theta}(a,x),g) \end{aligned}\tag{3}$

为了使得模型能够以概率的方式来判断某个 ${\rm Anchor}$ 是否属于正样本，做法是对于某个真实框对 ${\rm Anchor}$ 的分数建模，然后基于概率将 ${\rm Anchor}$ 划分为正负。由于目的是将一组 ${\rm Anchor}$ 划分为正样本和负样本，论文使用高斯混合模型： $P(a|x,g,\theta)=w_1\mathcal N_1(a;m_1,p_1)+w_2\mathcal N_2(a;m_2,p_2)\tag{4}$

$w$ 、 $m$ 和 $p$ 分别表示权重、均值和准确率，给定一组 ${\rm Anchor}$ 的分数，使用 ${\rm EM}$ 算法可以优化该 ${\rm GMM}$ 。使用 ${\rm EM}$ 优化得到的 ${\rm GMM}$ ，我们可以根据 ${\rm Anchor}$ 概率将其划分成正样本或负样本。下图是几种典型的划分方式：

在这里插入图片描述

图4：不同的划分方式

在这里插入图片描述

图5：算法流程

算法输入是真实框 ${\mathcal G}$ 、 ${\mathcal A}$ 、第 $i$ 层的 ${\mathcal A_i}$ 、金字塔层数 ${\mathcal L}$ 和金字塔每层的 ${\rm Anchor}$ 数 ${\mathcal K}$ ，输出是正负样本集合 ${\mathcal P}$ 、负样本集合 ${\mathcal N}$ 和忽略样本集合 ${\mathcal I}$ 。第三行，初始状态使用与真实框有最高交并比的 ${\rm Anchor}$ ；第六行，确定金字塔每一层的 ${\rm Anchor}$ 为 ${\mathcal A_i^g}$ ；第七行，基于公式（3）计算 ${\rm Anchor}$ 的得分 ${\mathcal S_i}$ ；第八行，找到第 ${\mathcal K}$ 个最高得分的 ${\rm Anchor}$ 为 $t_i$ ；第九行，获得前 ${\mathcal K}$ 个最高得分的 ${\rm Anchor}$ 为 ${\mathcal C_g^i}$ ；第十二行，使用 ${\rm EM}$ 优化 ${\rm GMM}$ ；第十三行，划分正负样本。

为了概率算法整体以及将其应用到检测器中，损失函数定义如下： $\argmax_{\theta}\prod_g\prod_{a\in \mathcal A_g}P_{pos}(a,\theta,g)S_{pos}(a,\theta,g)+P_{neg}(a,\theta,g)S_{neg}(a,\theta)\tag{5}$

$\begin{aligned} S_{pos}(a,\theta,g)&=S(f_{\theta}(a),g) \\ &=\exp(-\mathcal L_{cls}(f_{\theta}(a),g)-\lambda \mathcal L_{IoU}(f_{\theta}(a),g)) \end{aligned}\tag{6}$

$S_{neg}=\exp(-\mathcal L_{cls}(f_{\theta}(a),\varnothing))\tag{7}$

3.2 IoU Prediction as Localization Quality

由于在训练和测试过程中均需要使用交并比来衡量预测框的质量，论文提出将模型扩展为直接预测边界框与之对应真实框的交并比，通过添加一个卷积层针对每个 ${\rm Anchor}$ 输出一个标量值。则最终的损失函数还需要加上这一分支的结果： $\mathcal L(f_{\theta}(a),g)=\mathcal L_{cls}(f_{\theta}(a),g)+\lambda_1\mathcal L_{IoU}(f_{\theta}(a),g)+\lambda_2\mathcal L_{IoUP}(f_{\theta}(a),g)\tag{8}$