论文题目:V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection
论文出处:Computer Vision and Pattern Recognition(CVPR)2021
论文链接:文章下载
代码链接:暂无
一、摘要
为了解决行人检测中的遮挡问题,提出了V2F-Net模型,该模型遮挡行人的检测分为可见区域可全身估计。
V2F-Net由两个子网络组成:可见区域检测网络(Visible region Detection Network,VDN) 和 全身估计网络(Fully Estimation Network,FEN)。除此之外,为了提高检测器进行全身估计的能力,提出了一种嵌入式的部件感知模块(Embedding-based Part-aware Module ,EPM)。
二、动机
以往的研究将检测任务和估计任务融合为一个较难的任务,增加了网络学习的难度。为了降低难度,可行的方式是将问题进行分解,然后分别解决每个子问题。受这些工作的启发,本文将行人检测分为下面两个阶段。
行人检测过程将被经历两个阶段:
- 第一阶段:可见区域检测。识别每个行人的可见部分
- 第二阶段:全身估计。利用行人可见部分估计行人整个身体
V2F-Net的目标是建立一个更直观和更强的模型来处理遮挡,分解网络可以充分利用可见区域来提高检测性能。
三、模型介绍
整体流程:
- 首先对输入图像进行VDN处理,检测出所有行人的可见区域;
- 在利用NMS对检测的可见区域进行处理后,将剩下的预测框送入FEN进行全身估计;
- 可见区域信息还将被传递给部分感知模块(EPM),以预测行人每个部分的可见性。
NMS只在进行预测可见区域(VDN)时使用
3.1 VDN
VDN的目标是检测行人的可见区域,其可以从原始检测器(如Faster R-CNN或者RetinaNet)进行修改(将回归目标整体改为回归目标可见部分)来实现。
VDN的损失函数为:LVDN = Lcls1 + Lreg1 + Lcls2 + Lreg2
其中,Lcls1和Lcls2是RPN的分类损失,Lreg1 和Lreg2是R-CNN的回归损失。
3.2 FEN
FEN用来从VDN已经检测出的可见区域中估计出全身区域。其具体操作为:
- 根据VDN检测的行人可见区域预测框V,使用RoI-Align提取相应的特征FV
- 然后将这些特征通过ReLU激活馈送到两个全连接层,将FV转换为特定于任务的特征FrV
- 最后,通过一个全连接层进行全身估计
为了在训练过程中将输入的可见区域预测框V与全身框进行匹配,采用vdt→vgt→fgt的标签分配策略。
3.3 EPM
EPM用来提高可见区域估计全身的精度:首先根据OR-CNN将行人划分成np=5个部分,然后创建一个部分嵌入矩阵 E∈np*dp,其中Ei表示和第i个部分相对应的嵌入矩阵。
第i个部分pi经过感知模块(EPM)处理后的响应为:rip = sigmoid(Fvr·Ei),i∈[1,np]。
四、实验验证
该实验以Faster R-CNN和FPN为基线,使用ResNet-50作为骨干网络,在CrowdHuman和CityPersons数据集上进行测试,获得了以下结果。
-
CrowdHuman数据集
- 消融实验
- 可见区域检测和全身检测对比
F代表只进行全身检测;V&F代表进行可见区域和全身并行检测;F2表示对全身进行两次迭代检测;V2F是本论文提出的方法。 - 不同方法的比较
- 消融实验
-
CityPersons数据集
五、改进方向
为了验证每个组成部分的可靠性,作者对每个部分进行了试验验证:
(1)P-VDN:使用可见部分的真实框替换VDN检测到的预测框;
(2)P-VDN + NMS:将可见部分的真实框作为FEN的输入;
(3)P-FEN:全身估计是通过标签分配得到而不是FEN。
通过上图的结果可以发现:
1、 P-VDN和P-FEN都略微改善AP,但大大降低MR−2。这说明VDN产生了很多高分数的假阳性,FEN应该更加注意这些高度自信的假阳性可见框。
2、 与P-VDN相比,P-VDN+NMS在一定程度上改善了AP和MR−2,说明即使在NMS中使用可见框,也存在错误抑制。
本博客的初衷是用做个人笔记并进行交流探讨,由于个人能力有限,若存在解读错误问题,或者您在阅读本文有不理解的地方,欢迎指正交流。