总结Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

最新推荐文章于 2024-07-20 06:18:08 发布

指法芬芳的程序猿

最新推荐文章于 2024-07-20 06:18:08 发布

阅读量369

点赞数

分类专栏：行人检测文章标签：深度学习自动驾驶机器学习神经网络

本文链接：https://blog.csdn.net/u013849750/article/details/108956835

版权

行人检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述
Code

Introduction

**
以Faster R-CNN为代表的两阶段通用目标检测器经过改进后在行人检测上虽精度较高但速度不给力，主要原因是它需要两阶段的处理：RPN与ROI pooling特征的分类。
使用一阶段的SSD做行人检测时存在两个问题，一是虽然速度还可以但在常用的行人数据集上（Citypersons和Caltech）检测精度的结果较差。
上面的问题使得作者想去搞明白使Faster R-CNN精度高的key，以及如何将这个key转移到SSD上。
由于SSD和Faster R-CNN都具有先验框，因此作者认为关键是先验框的两步预测，一是RPN，二是ROI预测，而不是ROI pooling模块。
基于SSD行人检测的第二个问题是使用单个阈值训练造成的。一方面，较低的IoU阈值（例如0.5）有助于定义足够数量的阳性样本，尤其是当训练数据中的行人实例有限时。但是在训练过程中单个较低的IoU阈值将导致推理过程中会出现许多“接近但不正确”的误报。另一方面在训练过程中较高的IoU阈值（例如0.7）有助于在推理过程中拒绝接近的假阳性，但是在较高的IoU阈值下，匹配的阳性数要少得多。
这种正负的定义难题使得很难训练高质量的SSD，但是Faster R-CNN中的两步预测缓解了这个问题。
上面的分析使得作者想通过改进本地化和提高IoU阈值来分多个步骤训练SSD。
Asymptotic Localization Fitting（ALF）：它直接从SSD中的先验框开始，并逐步地演化所有锚框，从而将更多的锚框推近GTbox真值框。
**

Related work

**
以Two-stage的framework衍生出了很多methods来提升检测性能，包括专注于改进网络架构、训练策略、辅助上下文信息挖掘等，但是计算负担重仍然不可避免。
One-stage检测器直接回归先验框，因此计算效率更高，但与两级方法相比结果不太令人满意。
而且在one-stage 的framework上进行行人检测的工作很少。
以Two-stage方法，尤其是R-CNN系列衍生出了许多行人检测的方法，包括TA-CNN、DeepParts、RPN+BF、SA-FastR-CNN等。但这些方法相比速度更多的关注于精度。
**

Approach

**
Asymptotic Localization Fitting
通过上述分析我们知道单阶段方法次优主要是因为很难要求单个预测器p_n (⋅)在均匀铺设先验框的feature map上完美执行。一个合理的解决方案是堆叠一系列预测值p_n^t (⋅)应用于由粗到细的锚框B_n^t，其中t表示第t_th步。
在这里插入图片描述
其中T是总的步骤数，B_n^0 表示在第n层铺设的先验框，B_n^t 〖表示由B〗_n^(t−1) 得到的锚框。
使用上述方式，也就是随着锚框的逐步细化，这意味着可以获得更多的正样本，后面步骤中的预测器可以用更高的IoU阈值来训练，这有助于在推理过程中产生更精确的定位。这种方式的另一个优点是，在所有步骤中用不同IoU阈值训练的多个分类器将以“多专家”的方式对每个锚框进行评分，因此如果正确融合，评分将比单个分类器更有把握。

图2给出了两个示例图像，以证明所提出的ALF模块的有效性。从图2 (a)可以看出，在IoU阈值为0.5的情况下，分配为正样本的先验框分别只有7个和16个，随着ALF步骤的增加，正样本的先验框数量逐渐增加，与groundtruth的平均重叠值也在增加。结果表明，前者能向后者交出更多且IOU较高的锚框。
在这里插入图片描述
Overall Framework

方法基于一个全卷积网络，该网络产生一组包围盒和指示是否存在行人实例的置信度分数。基本网络层由用于图像分类的标准网络(例如ResNet-50[18]或MobileNet[20])截取而来。
以Resnet-50为例，首先从阶段3、4和5的最后一层的feature map(表示为Φ3、Φ4和Φ5，图3(A)中的黄色块)中发出分支，并在末端附加一个额外的卷积层，以产生Φ6，生成辅助分支(图3(A)中的绿色块)。在{φ3，φ4，φ5，φ6 }上执行检测，大小分别按输入图像的8，16，32，64 w.r.t .下采样。对于提议生成，将宽度为{(16，24)，(32，48)，(64，80)，(128,160)}像素且单个纵横比为0.41的锚框分别分配给每层的feature map。
然后，在图3(B)所示的卷积预测器块(CPB)上添加了几个用于包围盒分类和回归的堆叠步骤。
在这里插入图片描述
**

Training and Inference

**
Training：如果锚框与任何GT的IOU高于阈值u_ℎ，则设置为正样本s_+，如果IOU低于阈值u_l，则设置为负样本s_− 。IOU在[u_l,u_h)的锚框则忽略掉。
在每一步t中，结合两个目标的预测器的多任务损失函数为：
在这里插入图片描述
这里的回归损失l_loc 为SmoothL1 loss。l_cls 为二分类交叉熵损失。λ为平衡参数。
l_cls 由Foacl loss改进而来，其形式为：

其中，p_i 为样本i为正的可能性。α和γ为focusing parameter，分别设为0.25和2。
为了增加训练数据的多样性，每个图像都增加了以下选项：在随机颜色失真和水平图像翻转（概率为0.5）之后，我们首先裁剪原始图像大小为[0.3，1]的色块，然后调整色块的大小，以使较短的一面具有N个像素（对于CityPersons为N = 640，对于Caltech为N = 336），同时保持图像的长宽比。
**Inference：**对于每个级别，先从最终预测器中获得回归锚框，并从所有预测器中获得混合置信度得分。首先滤除分数低于0.01的框，然后将剩余的所有框以阈值为0.5进行非最大抑制（NMS）合并。

Experiments

在这里插入图片描述

指法芬芳的程序猿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
总结Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

Code**Introduction**以Faster R-CNN为代表的两阶段通用目标检测器经过改进后在行人检测上虽精度较高但速度不给力，主要原因是它需要两阶段的处理：RPN与ROI pooling特征的分类。使用一阶段的SSD做行人检测时存在两个问题，一是虽然速度还可以但在常用的行人数据集上（Citypersons和Caltech）检测精度的结果较差。上面的问题使得作者想去搞明白使Faster R-CNN精度高的key，以及如何将这个key转移到SSD上。由于SSD和Faster R-C.
复制链接

扫一扫