Multiview Detection with Feature Perspective Transformation (2020 ECCV) 处理严重遮挡下的行人检测 学习记录
文章目录
作者及团队
Yunzhong Hou, Liang Zheng, and Stephen Gould,澳大利亚国立大学计算机学院的博士生及导师团队。
综述
本篇论文介绍了一种anchor-free的行人定位识别算法,此算法基于多个单目相机完成multiview检测。
关键词
多视角检测,图像信息融合,特征级融合/转换,anchor-free,全卷积网络。
背景与动机
- 多机位的意义:解决行人会被其他人遮挡的问题。
- anchor-free的意义:基于ROI-pooling的目标检测可能会因为人的动作不同而给出不准确的特征表达。并且用anchor的速度慢,计算代价大。用anchor-free的目标检测和定位会更准确,并且算的更快。
- 特征级融合的意义:原图像像素级的早期融合会使像素之间的空间位置关系被破坏,对于特征提取的难度会加大。检测结果的晚期融合会丢失信息,限制可以被融合的信息量。而特征级融合可以保留更多的语义空间信息,使得特征信息更完整。
主要贡献
- 设计了MVDet网络,用于多机位行人定位。
- 提出了特征图的3D到2D投影的方法来进行特征级融合。
算法输入输出
- 输入:多机位的同一时间3通道照片。
- 输出:人群分布俯视图(pedestrian occupancy map)。
总而言之这是一个端到端的算法。
算法流程与要点
前向传播
输入几张不同视角的3通道图,进行特征提取(ResNet-18)之后将提取出的特征图进行投影变换,将之前的3D视角的特征图投影到2D平面,并和坐标信息进行融合,得到一BEV俯视图。最后对这张BEV特征图叠加上两张coordinate map(之前没有很理解这个coord map是做什么的,跟作者沟通了一下得到作者的原话:这个coord map用来告知系统,场景内每个点的相对坐标。由于相机固定,不同位置会有不同相机覆盖,系统可以借此学会在不同位置相信哪些相机)。最终对叠加起来的特征图进行大卷积核卷积得到最终的位置预测。
反向传播相关
- 第一个Loss名为ground plane loss,用于计算gt人脚踩的位置与特征合并变幻后预测出的站立点的位置的差距。标签是以人站立点坐标为均值的高斯分布。是两个高斯分布之间的回归问题,应用了 L 2 l o s s L_{2}\ loss L2 loss来计算。
- 第二个Loss是single view loss,用于计算特征变幻合并前每个单目相机视角下里gt人的头的位置和站立点的位置关系与预测(检测)出的位置关系的差。是两个坐标之间的回归问题,应用了 L 2 l o s s L_2\ loss L2 loss来计算。
最后两个loss通过加权合并来得到最终的损失函数:
L
c
o
m
b
i
n
e
d
=
L
g
r
o
u
n
d
+
α
×
1
N
∑
n
=
1
N
L
s
i
n
g
l
e
(
n
)
L_{combined} = L_{ground} + \alpha \times \frac{1}{N}\sum_{n=1}^N L_{single}^{(n)}
Lcombined=Lground+α×N1n=1∑NLsingle(n)
其中
α
\alpha
α是权重,
N
N
N是指摄像头的数量。
作者在论文中提及后一项 L s i n g l e L_{single} Lsingle可以省略,这个部分只是辅助收敛和识别。
注:个人认为这个部分如果保留会使backbone网络有更强的特征提取能力(权重共享),能够帮助网络更好的定位到人的关键部位,类似于attention机制,进而帮助锁定人站立点位置。
本算法中的3D转2D依赖相机内外参的标定。
结果与结论
可以在有遮挡的情况下很好的输出行人的俯视位置图。
可能的局限与缺点
- 此算法用了很多个不同的视角才得出了这样的效果,如果摄像头数量变少效果可能会变差。
- 网络结构相对复杂,虽然优化了距离解算,但是不确定能不能做到实时检测(需要实验),作者在原文中并未提及算法的检测速度问题。
- 可能难以应用到公路车载,需要在特定的场景应用,例如比赛场地,工业园区。