F2DNet: Fast Focal Detection Network for Pedestrian Detection

最新推荐文章于 2022-11-23 09:32:09 发布

Fwenxuan

最新推荐文章于 2022-11-23 09:32:09 发布

阅读量4.8k

点赞数 2

分类专栏： DeepLearining 文章标签：计算机视觉深度学习目标检测

本文链接：https://blog.csdn.net/weixin_42714574/article/details/123602994

版权

DeepLearining 专栏收录该内容

15 篇文章 3 订阅

订阅专栏

F2DNet

论文标题:F2DNet: Fast Focal Detection Network for Pedestrian Detection

论文地址:https://arxiv.org/abs/2203.02331

论文源码:https://github.com/AbdulHannanKhan/F2DNet.

凯撒斯劳滕工业大学 CVPR2022

Introduction

本次工作提出 F2DNet，一种新型的两阶段检测架构，通过用 focal detection network 取代 region proposal network，用 fast suppression head 取代 bounding box head，消除当前两阶段检测器的冗余性。在顶级行人检测数据集上对F2DNet进行了基准测试，将其与现有的最先进的检测器进行了比较，并进行了跨数据集评估，以测试该模型对未见过的数据的通用性。

F2DNet 在单一数据集上训练时，在 City Persons, Caltech Pedestrian, Euro City Person数据集上分别实现了8.7%、2.2%和6.1%的MR-2，在 Caltech Pedestrian 和 City Persons 数据集的严重遮挡设置下，使用渐进式微调时，达到了20.4%和26.2%的MR-2。此外，与目前最先进的技术相比，F2DNet的推理时间明显缩短。

本文方法在本质上不同于现有的单级和两级探测器。该工作只使用来自不同损失设置的CSP的头，因为CSP头比region proposal network更强、更高效，而且还使用 fast suppression head 来进一步细化检测。与两阶段检测器相比，本文用更强的检测网络代替region proposal network，但是本文并不称之为另一个region proposal network，因为与需要进一步细化和分类的方案相比，focal detection network产生了较强的检测候选网络。此外，本文用一个简单有效的抑制头，取代传统的第二阶段，只预测边界框而不改变边界框。

本文的贡献有三方面：

首先，重新设计了两阶段检测架构，消除冗余和低效的边界盒预测，用强检测网络取代region proposal network，然后使用一个轻量级抑制头而不是多个边界盒头。
其次，提出了focal detection network作为我们的分类和边界盒回归头，它可以独立地产生令人满意的结果
第三，提出fast suppression head 来处理在小和严重遮挡的设置下产生的假阳性。

FAST FOCAL DETECTION NETWORK
在这里插入图片描述

A. Feature Extraction

为了预测精确的位置和大小，需要包含语义和位置信息的高分辨率特征。积极的降低和升级可能会导致这些重要信息的丢失。因此，本文使用HRNetW32v2骨干网络进行特征提取，因为它从图像中提取高分辨率的特征。为了获得单一尺度的特征图，从主干的不同stage中获取特征图，利用双线性插值法将其上采样到
$(h / 4, w / 4)$ ，并应用卷积运算。这样，模型保持轻，对内存，因为插值操作没有内存成本，但是有效的，因为成功的卷积操作提供了必要的可学习参数。

B. Fast Focal Detection Network

目前的两阶段目标检测体系结构采用了一个weak region proposal network，然后是strong bounding box heads。本文采取了一种不同的方法，使用一个 strong detection head头和一个light suppression head。这样，检测头注重精确定位和高分类召回率，而抑制头处理假阳性。简而言之，本文的两阶段检测体系结构通过消除当前两阶段体系结构中包含的重复而获得了高效率。

在这里插入图片描述

Focal Detection Network：Focal Detection Network的架构是基于中心和尺度图预测的思想，消除了对检测的边界盒的显式建模。使用不同的损失设置来微调架构，以更好地收敛和精确的定位。Focal Detection Network的中心损耗**(其实就是在focal detection network中采样了focal loss ,分割简单样本和困难样本对损失的贡献值)**可表述为：

在这里插入图片描述

在上式中， $p_{ij}$ 和 $y_{ij}$ 分别是预测的中心概率和GT。 $CE(p_{ij},y_{ij})$ 表示交叉熵损失， $\alpha_{ij}$ 为每个位置 $(i, j)$ 的权重。 $p_{ij}^{\gamma}$ 和 $(1-p_{ij})^{\gamma}$ 根据预测置信度来定义焦点权重。

它减少了简单样本对损失的贡献，并帮助优化器专注于困难样本。 $(1-M_{ij})^{\beta}$ 项减少了更接近真实中心的假阳性的损失。在实验中使用了 $\gamma=2$ 和 $\beta=4$ 。

Smooth L1 loss经常被用来计算回归损失，因为它对异常值是稳定。但是当预测高度与实际高度之间的距离较小时，Smooth L1 loss减少了损失，这有助于更好的收敛。然而，由于本文使用log函数对高度值进行处理，而不是使用实际的高度值，它会导致较小的检测，最终导致IOU置信度不足导致的假阳性。因此，本文使用Vanilla L1 Loss作为回归损失，使高度预测更准确。将焦点检测头的损失定义为：

在这里插入图片描述

其中， $\lambda_{r},\lambda_{c}$ 和 $\lambda_{o}$ 分别代表回归、分类和偏移损失的权重。通过实验发现， $\lambda_{r}=0.05,\lambda_{c}=0.01$ 和 $\lambda_{o}=0.1$ 帮助模型比其他权重设置收敛得更好。

在这里插入图片描述

Fast Suppression Head：由于Focal Detection Network使用惩罚减少的focal loss作为center 损失，因此在正样本中心附近的假阳性没有得到充分的惩罚。虽然大多数这些假阳性被非最大抑制(NMS)抑制，但仍需要另一个抑制步骤来抑制其余的正样本，即正样本附近的预测的IoU低于0.5。因此，本文提出了一个简单、快速的抑制头来进一步细化检测结果。在分离设置下训练快速抑制头，即从fast suppression head开始的梯度不会流回特征图或检测头。这样，就实现了一个简单、轻而有效的抑制头。使用二进制交叉熵作为fast suppression head的损失。

Pedestrian Detection

在这里插入图片描述

每个预测从Focal Detection Network中得到一个分数，从Fast Suppression Head中得到另一个分数。使用所示的生成模型，结合两个分数，消除阈值超参数。本文注重的的是检测到行人未被抑制的目标，即 $P(\lnot s,d|c,h)$ 。检测模型由 $P (s, d ∣ c, h)$ 的联合概率分布推导出，用以下关系表示：

在这里插入图片描述

其中， $c$ 和 $h$ 分别为行人的中心和高度。 $P (d ∣ c)$ 是Focal Detection Network检测到一个位置为行人中心的概率， $P (s, d ∣ c, h)$ 是给定一个边界盒检测，它被快速抑制头抑制的概率。

Experiment

两阶段检测器在行人检测中表现良好，但基于region proposal network的两阶段检测器效率低下，因为region proposal network被训练来预测，需要进一步优化。**本文用基于每像素中心和尺度回归的强焦点检测网络取代了region proposal network，从而产生了高质量的候选网络，除了在小和遮挡设置中有一些假阳性外，是很好的检测。**本文通过一个轻量级的Fast Suppression Head传递了这些强大的候选网络，该网络几乎没有明显的计算成本，进一步改进了检测，以产生有良好的结果。本文的模型击败了在大多数能见度和高度设置的sota模型，没有使用任何额外的数据，除了预先训练的骨干。

在这里插入图片描述