【论文解读】V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection（遮挡行人的分解检测）

最新推荐文章于 2022-11-24 18:47:42 发布

叫做传奇的盖世狼人

最新推荐文章于 2022-11-24 18:47:42 发布

阅读量3.9k

点赞数 1

分类专栏：论文解读文章标签：计算机视觉目标检测深度学习

本文链接：https://blog.csdn.net/qq_42194827/article/details/123598467

版权

论文解读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文题目：V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection

论文出处：Computer Vision and Pattern Recognition（CVPR）2021

论文链接：文章下载

代码链接：暂无

一、摘要

为了解决行人检测中的遮挡问题，提出了V2F-Net模型，该模型遮挡行人的检测分为可见区域可全身估计。
V2F-Net由两个子网络组成：可见区域检测网络（Visible region Detection Network，VDN） 和 全身估计网络（Fully Estimation Network，FEN）。除此之外，为了提高检测器进行全身估计的能力，提出了一种嵌入式的部件感知模块（Embedding-based Part-aware Module ，EPM）。

二、动机

以往的研究将检测任务和估计任务融合为一个较难的任务，增加了网络学习的难度。为了降低难度，可行的方式是将问题进行分解，然后分别解决每个子问题。受这些工作的启发，本文将行人检测分为下面两个阶段。

行人检测过程将被经历两个阶段：

第一阶段：可见区域检测。识别每个行人的可见部分
第二阶段：全身估计。利用行人可见部分估计行人整个身体
V2F-Net的目标是建立一个更直观和更强的模型来处理遮挡，分解网络可以充分利用可见区域来提高检测性能。

三、模型介绍

在这里插入图片描述
整体流程：

首先对输入图像进行VDN处理，检测出所有行人的可见区域；
在利用NMS对检测的可见区域进行处理后，将剩下的预测框送入FEN进行全身估计；
可见区域信息还将被传递给部分感知模块（EPM），以预测行人每个部分的可见性。
NMS只在进行预测可见区域（VDN）时使用

3.1 VDN

VDN的目标是检测行人的可见区域，其可以从原始检测器（如Faster R-CNN或者RetinaNet）进行修改（将回归目标整体改为回归目标可见部分）来实现。
VDN的损失函数为：L_VDN = L_cls1 + L_reg1 + L_cls2 + L_reg2
其中，L_cls1和L_cls2是RPN的分类损失，L_reg1 和L_reg2是R-CNN的回归损失。

3.2 FEN

FEN用来从VDN已经检测出的可见区域中估计出全身区域。其具体操作为：

根据VDN检测的行人可见区域预测框V，使用RoI-Align提取相应的特征F_V
然后将这些特征通过ReLU激活馈送到两个全连接层，将F_V转换为特定于任务的特征F^r_V
最后，通过一个全连接层进行全身估计

为了在训练过程中将输入的可见区域预测框V与全身框进行匹配，采用vdt→vgt→fgt的标签分配策略。

3.3 EPM

EPM用来提高可见区域估计全身的精度：首先根据OR-CNN将行人划分成n_p=5个部分，然后创建一个部分嵌入矩阵 E∈n_p*d_p，其中E_i表示和第i个部分相对应的嵌入矩阵。
第i个部分p_i经过感知模块（EPM）处理后的响应为：r_i^p = sigmoid(F_v^r·E_i)，i∈[1，n_p]。

四、实验验证

该实验以Faster R-CNN和FPN为基线，使用ResNet-50作为骨干网络，在CrowdHuman和CityPersons数据集上进行测试，获得了以下结果。

CrowdHuman数据集
- 消融实验
- 可见区域检测和全身检测对比
  
  F代表只进行全身检测；V&F代表进行可见区域和全身并行检测；F²表示对全身进行两次迭代检测；V2F是本论文提出的方法。
- 不同方法的比较
CityPersons数据集

五、改进方向

为了验证每个组成部分的可靠性，作者对每个部分进行了试验验证：
（1）P-VDN：使用可见部分的真实框替换VDN检测到的预测框；
（2）P-VDN + NMS：将可见部分的真实框作为FEN的输入；
（3）P-FEN：全身估计是通过标签分配得到而不是FEN。

在这里插入图片描述
通过上图的结果可以发现：
1、 P-VDN和P-FEN都略微改善AP，但大大降低MR−2。这说明VDN产生了很多高分数的假阳性，FEN应该更加注意这些高度自信的假阳性可见框。
2、与P-VDN相比，P-VDN+NMS在一定程度上改善了AP和MR⁻²，说明即使在NMS中使用可见框，也存在错误抑制。

~~本博客的初衷是用做个人笔记并进行交流探讨，由于个人能力有限，若存在解读错误问题，或者您在阅读本文有不理解的地方，欢迎指正交流。~~

叫做传奇的盖世狼人

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文解读】V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection（遮挡行人的分解检测）

论文题目：V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection摘要：为了解决行人检测中的遮挡问题，提出了V2F-Net模型，该模型遮挡行人的检测分为可见区域可全身估计。V2F-Net由两个子网络组成：可见区域检测网络和全身估计网络。除此之外，为了提高检测器进行全身估计的能力，还设计了部分感知模块。
复制链接

扫一扫