2020年以来出现的一些单目视觉3-D目标检测的论文。本文针对部分典型的论文要点进行要点解读,仅供参考。
Towards Generalization Across Depth for Monocular 3D Object Detection
arXiv 1912.08035,v3,4,2020
介绍单步法,MoVi-3D,在训练和测试中,利用几何信息,生成目标外观被距离规范化的虚拟视角。结果是,模型减轻学习深度图特定的表示,复杂度降低。
如图所示:不直接在原图进行检测,而是在虚拟图像,并且距离规范化。
如下是单目3D目标检测的示意图:3D边框参数估计
这样需要阐述的是图像变换如何定义,如图所示是先定义一个3D视角口(3D viewport):和图像平面平行,基于深度而设置。
那么虚拟图像的产生是这样过程:给定使用上述摄像头和视角口捕获的图像,分别计算视角口的左上角和右下角,即(Xv,Yv,Zv)和(Xv + Wv,Yv-Hv,Zv),并将它们投影到相机的图像平面,从而产生 2D视角口的左上角和右下角。将其裁剪并重新缩放为所需的分辨率wv x hv,获取最终输出,即给定3D视角口生成的虚拟图像。
其中视角口的宽度为 (f是焦距,高度是预定义)
训练过程中虚拟图像的产生过程如图:
而测试过程的流水线如下:给定图像、深度分辨率Zres和摄像头参数,沿着Z轴每隔Zres/2米设置,产生一系列的3D视角口(Yv = 0),投影到图像平面(如同训练过程),最后的虚拟视图送入模型检测目标。
这里虚拟图像分辨率:
其中W是图像宽度。
最后看看MoVi-3D,主干是ResNet34,带FPN,检测头在RetinaNet修改,其架构图如下:
文章定义的参考目标大小是:宽-高-长
-
Car W0 = 1:63m, H0 = 1:53m, D0 = 3:84m,
-
Pedestrian W0 = 0:63m, H0 = 1:77m, D0 = 0:83m
-
Cyclist W0 =0:57m, H0 = 1:73m, D0 = 1:78m
结果比较如下表所示:
RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving
arXiv 2001.03343,1,2020
单步法,利用3D边框的9个keypoints图像透视投影预测,以及3D-2D投影的几何关系,来恢复目标的大小、位置、朝向。不过,训练不需要额外的网络或者监督数据。
代码将上线:Banconxuan/RTM3D
如图是该方法的概览:8个框点和1个中心点,预测其图像投影。
首先是keypoint 检测网络:主干、keypoint特征金字塔(KFPN)、检测头。基本上是一步法,类似无锚框的架构。输出各个点的热图(9个)。检测头类似CenterNet。
其中KFPN的细节展示: