GupNet :用于单目三维目标检测的几何不确定性投影网络

Abstract

几何投影是一种强大的单目3D物体检测深度估计方法。它依赖于高度来估计深度,从而在深度模型中引入了数学先验。然而,投影过程也引入了错误放大问题,即估计高度的误差会被放大并显著反映在输出深度上。这种特性导致深度推断不可控,并且损害了训练效率。在本文中,我们提出了一种几何不确定性投影网络(GUP Net)来解决推断和训练阶段的错误放大问题。具体来说,我们提出了一个GUP模块用以获取推断深度的几何引导不确定性,这不仅为每个深度提供了高可靠的置信度,还有助于深度学习。此外,在训练阶段,我们提出了一种分层任务学习策略,以减少由于错误放大引起的不稳定性。这种学习算法通过一个提出的指标监控每个任务的学习情况,并根据其前置任务的情况自适应地分配适当的损失权重。基于此,每个任务仅在其前置任务学得好的情况下开始学习,这可以显著提高训练过程的稳定性和效率。广泛的实验表明了所提出方法的有效性。整体模型比现有方法能够推断出更可靠的物体深度,并在KITTI基准测试的汽车和行人类别中分别超过了现有最先进的基于图像的单目3D检测器3.74%和4.7%的AP40。代码和模型将发布在https://github.com/SuperMHP/GUPNet。

图1. 我们的几何不确定性投影模块的主要流程。投影过程由概率框架中的不确定性理论建模。推理深度可以表示为一个分布,从而提供准确的值和评分。

1. Introduction

        3D 目标检测是自动驾驶的重要组成部分,近年来受到越来越多的关注。与基于 LiDAR/立体视觉的方法相比,单目 3D 目标检测仍然是一个具有挑战性的任务,因为缺乏深度线索,使得单目目标级深度估计本质上是病态的。因此,即使应用了一些复杂的网络结构,单目 3D 检测器也无法达到令人满意的性能。最近,为了缓解这一问题,一些研究尝试引入几何先验来帮助深度推理,其中一种广泛使用的先验是透视投影模型。

        现有的透视投影模型方法通常先估计 2D 和 3D 边界框的高度,然后通过投影公式

        通过该公式推断的深度与估计的 2D/3D 高度密切相关,因此高度估计的误差也会反映在估计的深度上。然而,尤其是病态的 3D 高度估计,高度估计的误差是不可避免的(由于 2D 高度估计相对更准确,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值