盘点 | 单目视觉3-D目标检测经典论文(附解读)

本文盘点了近年来的单目视觉3D目标检测技术,包括MoVi-3D、RTM3D、KM3D-Net、SMOKE、MonoPair等方法。这些方法利用几何约束、关键点检测、半监督训练等手段,实现3D目标检测的实时性和准确性。文章对各方法的原理、架构和实验结果进行了详细解读。
摘要由CSDN通过智能技术生成

2020年以来出现的一些单目视觉3-D目标检测的论文。本文针对部分典型的论文要点进行要点解读,仅供参考。

Towards Generalization Across Depth for Monocular 3D Object Detection

arXiv 1912.08035,v3,4,2020

图片

介绍单步法,MoVi-3D,在训练和测试中,利用几何信息,生成目标外观被距离规范化的虚拟视角。结果是,模型减轻学习深度图特定的表示,复杂度降低。

如图所示:不直接在原图进行检测,而是在虚拟图像,并且距离规范化。

图片

 如下是单目3D目标检测的示意图:3D边框参数估计

图片

这样需要阐述的是图像变换如何定义,如图所示是先定义一个3D视角口(3D viewport):和图像平面平行,基于深度而设置。

图片

那么虚拟图像的产生是这样过程:给定使用上述摄像头和视角口捕获的图像,分别计算视角口的左上角和右下角,即(Xv,Yv,Zv)和(Xv + Wv,Yv-Hv,Zv),并将它们投影到相机的图像平面,从而产生 2D视角口的左上角和右下角。将其裁剪并重新缩放为所需的分辨率wv x hv,获取最终输出,即给定3D视角口生成的虚拟图像。

其中视角口的宽度为 (f是焦距,高度是预定义)

图片

训练过程中虚拟图像的产生过程如图:

图片

而测试过程的流水线如下:给定图像、深度分辨率Zres和摄像头参数,沿着Z轴每隔Zres/2米设置,产生一系列的3D视角口(Yv = 0),投影到图像平面(如同训练过程),最后的虚拟视图送入模型检测目标。

图片

这里虚拟图像分辨率:

图片

其中W是图像宽度。

最后看看MoVi-3D,主干是ResNet34,带FPN,检测头在RetinaNet修改,其架构图如下:

图片

文章定义的参考目标大小是:宽-高-长

  • Car W0 = 1:63m, H0 = 1:53m, D0 = 3:84m,

  • Pedestrian W0 = 0:63m, H0 = 1:77m, D0 = 0:83m

  • Cyclist W0 =0:57m, H0 = 1:73m, D0 = 1:78m

结果比较如下表所示:

图片

图片

图片

RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving

arXiv 2001.03343,1,2020

图片

 单步法,利用3D边框的9个keypoints图像透视投影预测,以及3D-2D投影的几何关系,来恢复目标的大小、位置、朝向。不过,训练不需要额外的网络或者监督数据。

代码将上线:Banconxuan/RTM3D

如图是该方法的概览:8个框点和1个中心点,预测其图像投影。

图片

首先是keypoint 检测网络:主干、keypoint特征金字塔(KFPN)、检测头。基本上是一步法,类似无锚框的架构。输出各个点的热图(9个)。检测头类似CenterNet。

图片

其中KFPN的细节展示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值