盘点 | 单目视觉3-D目标检测经典论文（附解读）

最新推荐文章于 2024-07-11 17:21:44 发布

深兰深延AI

最新推荐文章于 2024-07-11 17:21:44 发布

阅读量3.2k

点赞数 3

分类专栏：目标检测文章标签：计算机视觉算法目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenlanshenyanai/article/details/121851944

版权

本文盘点了近年来的单目视觉3D目标检测技术，包括MoVi-3D、RTM3D、KM3D-Net、SMOKE、MonoPair等方法。这些方法利用几何约束、关键点检测、半监督训练等手段，实现3D目标检测的实时性和准确性。文章对各方法的原理、架构和实验结果进行了详细解读。

摘要由CSDN通过智能技术生成

2020年以来出现的一些单目视觉3-D目标检测的论文。本文针对部分典型的论文要点进行要点解读，仅供参考。

Towards Generalization Across Depth for Monocular 3D Object Detection

arXiv 1912.08035，v3，4，2020

介绍单步法，MoVi-3D，在训练和测试中，利用几何信息，生成目标外观被距离规范化的虚拟视角。结果是，模型减轻学习深度图特定的表示，复杂度降低。

如图所示：不直接在原图进行检测，而是在虚拟图像，并且距离规范化。

如下是单目3D目标检测的示意图：3D边框参数估计

这样需要阐述的是图像变换如何定义，如图所示是先定义一个3D视角口（3D viewport）：和图像平面平行，基于深度而设置。

那么虚拟图像的产生是这样过程：给定使用上述摄像头和视角口捕获的图像，分别计算视角口的左上角和右下角，即（Xv，Yv，Zv）和（Xv + Wv，Yv-Hv，Zv），并将它们投影到相机的图像平面，从而产生 2D视角口的左上角和右下角。将其裁剪并重新缩放为所需的分辨率wv x hv，获取最终输出，即给定3D视角口生成的虚拟图像。

其中视角口的宽度为（f是焦距，高度是预定义）

训练过程中虚拟图像的产生过程如图：

而测试过程的流水线如下：给定图像、深度分辨率Zres和摄像头参数，沿着Z轴每隔Zres/2米设置，产生一系列的3D视角口（Yv = 0），投影到图像平面（如同训练过程），最后的虚拟视图送入模型检测目标。

这里虚拟图像分辨率：

其中W是图像宽度。

最后看看MoVi-3D，主干是ResNet34，带FPN，检测头在RetinaNet修改，其架构图如下：

文章定义的参考目标大小是：宽-高-长

Car W0 = 1:63m, H0 = 1:53m, D0 = 3:84m,
Pedestrian W0 = 0:63m, H0 = 1:77m, D0 = 0:83m
Cyclist W0 =0:57m, H0 = 1:73m, D0 = 1:78m

结果比较如下表所示：

RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving

arXiv 2001.03343，1，2020

单步法，利用3D边框的9个keypoints图像透视投影预测，以及3D-2D投影的几何关系，来恢复目标的大小、位置、朝向。不过，训练不需要额外的网络或者监督数据。

代码将上线：Banconxuan/RTM3D

如图是该方法的概览：8个框点和1个中心点，预测其图像投影。

首先是keypoint 检测网络：主干、keypoint特征金字塔（KFPN）、检测头。基本上是一步法，类似无锚框的架构。输出各个点的热图（9个）。检测头类似CenterNet。

其中KFPN的细节展示：

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。