GUPNet++: 用于单目3D目标检测的几何不确定性传播网络

最新推荐文章于 2024-07-23 15:01:23 发布

自动驾驶之心

最新推荐文章于 2024-07-23 15:01:23 发布

阅读量177

点赞数

文章标签： 3d 目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247572862&idx=4&sn=88812cd6237591ae7871cc333e8dab95&chksm=ceb9f0b7f9ce79a12ea184744bb0d5beea02f245812aad446f8b76240950ee353d26c5e56683&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

>>点击进入→自动驾驶之心【3D目标检测】技术交流群

论文作者 | 汽车人

编辑 | 自动驾驶之心

GUPNet++: 用于单目三维目标检测的几何不确定性传播网络

“
原标题：GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Detection.

论文链接：https://arxiv.org/pdf/2310.15624.pdf

作者单位：悉尼大学上海人工智能实验室商汤中国科学技术大学
”

论文思路：

几何形状在单目 3D 目标检测中发挥着重要作用。它可以利用物体物理尺寸和图像平面上的二维投影之间的透视投影来估计物体深度，这可以将数学先验引入深度模型。然而，这个投影过程也引入了误差放大，其中估计高度的误差被放大并反映到投影深度中。它会导致不可靠的深度推断，还会损害训练稳定性。为了解决这个问题，本文通过以概率方式对几何投影进行建模，提出了一种新颖的几何不确定性传播网络（GUPNet++）。这确保了深度预测是有界限的并且与合理的不确定性相关。引入这种几何不确定性的意义是双重的：(1) 它对训练过程中几何投影的不确定性传播关系进行建模，提高了端到端模型学习的稳定性和效率。（2）可以得出高度可靠的置信度来指示 3D 检测结果的质量，从而实现更可靠的检测推断。实验表明，所提出的方法不仅在基于图像的单目 3D 检测中获得了（最先进的）SOTA 性能，而且还通过简化的框架展示了功效的优越性。

主要贡献：

本文引入了几何不确定性传播网络 (GUPNet++) 并提高了基于投影的单目 3D 目标检测的性能，实现了最先进的结果。

本文开发了一种新的几何引导深度不确定性，结合了数学先验和不确定性建模，以克服单目 3D 目标检测中的误差放大。提出了一种新颖的 IoU 引导的 Uncertainty Confidence，以利用不确定性来实现更可靠的 3D 检测。引入基于不确定性的优化方法来有效地稳定模型训练。

对具有挑战性的 KITTI 数据集的评估表明，总体上提出的 GUPNet++ 在 KITTI 测试集上为汽车类实现了最先进的性能，这在简单、中等和困难指标上分别带来了约 4.88%、2.28% 和 2.81% 的增益比原来的会议版本GUPNet。除此之外，对 nuScenes 数据集的评估表明，GUPNet++ 达到了约 34.8% mAP 的新SOTA。

网络设计：

与标准的基于投影的方法不同，GUPNet++ 以概率方式建立投影过程，如图 1 所示。深度被公式化为一个分布，并从遵循几何约束的两个高度分布导出。项目过程的概率建模确保深度分布包含从估计高度传播的统计数据。这样，从深度分布中获得几何引导的深度不确定性，以反映每个投影深度的估计误差。在推理过程中，这种深度不确定性可用于得出 3D 检测的置信度，以提高模型的可靠性。此外，在训练过程中，本文可以利用深度不确定性来避免极其嘈杂的投影深度值的影响，从而使本文的模型达到更稳定的训练过程。为了实现这些目标，本文提出了一种 IoU-guided Uncertainty-Confidence 方案，该方案可以有效地将深度不确定性转化为 3D 检测分数。此外，还引入了基于不确定性的优化方法，以利用高度和深度的不确定性来有效稳定训练过程。这些技术减少了训练和推理阶段误差放大的影响，从而获得更可靠的 3D 检测结果。

图3.GUPNet++的框架。输入图像由网络处理以提取 2D 框和基本 3D 框参数。几何不确定性传播模块使用高度参数估计深度，有助于训练和推理。

图 1.几何不确定性传播模块的主流程。投影过程由概率框架中的不确定性理论建模。推理深度可以表示为分布，以便可以提供准确的值和分数。

图 2. ±0.1m 3D 高度抖动引起的深度偏移的可视化示例。本文画了一些鸟瞰图的例子来展示误差放大的效果。横轴和纵轴的单位均为米，纵轴对应深度方向。绿色框表示原始投影输出。蓝色和红色框分别是由 +0.1m 和 -0.1m 3D 高度偏差引起的移位框。

图 4. IoU-guided Uncertainty-Confidence 的计算流程：虚线框表示最远的潜在真实框，与本文的预测框（实线框）具有 0.7 IoU 值。在此之下，深度分布曲线下橙色区域的平方表示蓝色框的置信度。

实验结果：

引用：

Lu, Y., Ma, X., Yang, L., Zhang, T., Liu, Y., Chu, Q., He, T., Li, Y., & Ouyang, W. (2023). GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Detection. ArXiv. /abs/2310.15624

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GUPNet++: 用于单目3D目标检测的几何不确定性传播网络

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取>>点击进入→自动驾驶之心【3D目标检测】技术交流群论文作者|汽车人编辑 | 自动驾驶之心GUPNet++: 用于单目三维目标检测的几何不确定性传播网络“原标题：GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Det...
复制链接

扫一扫