MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Abstract

利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难,而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理,用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构,四个子任务分别是2D目标检测,实例深度估计(IDE),3D定位与本地角点回归。与需要进行像素级别标注的像素级深度估计方法不同,我们提出的先进的IDE算法直接利用稀疏监督预测目标3Dbbox中心的深度。通过估计水平和垂直方向的位置,进一步实现了3D定位。最后,MonoGRNet利用全局上下文联合优化定位与3DBbox。结果展示MonoGRNet在挑战数据集上达到了SOTA的表现。

1、Introduction

典型的目标定位或者检测是从RGB图像中估计2Dbbox,将图像平面上特定类型的可见部分用2Dbbox框住。然而,这类的结果在场景理解的时候不能提供真实3D世界的几何认知信息,这对例如机器人,混合现实与自动驾驶来说有着十分迫切的需求。

本文我们解决从单目RGB图片中定位目标完整的模态3Dbbox(ABBox-3D)。与图像平面的2D分析相比,扩展到不可视区域的3D定位(例如深度),不仅扩大了搜索空间而且引入了固有2D到3D映射过程的不确定性,严重增加了任务的难度。

最SOTA的单目方法(Xu and Chen 2018; Zhuo et al. 2018)估计像素级别的深度然后进行3Dbbox的回归。然而像素级的深度预测用设计来说不是用于目标定位的。他的目标是使得所有像素的平均误差最小,从而得到整个图像的平均最优估计,而覆盖面积小的目标往往被忽略掉(Fu et al. 2018),这样大幅度的降低了3D检测的准确率。

我们提出了MonoGRNet,一种从单目图片中进行模态3D目标定位的方法。这种方法的关键思想是将3D定位问题转换成数个先进的可以利用单目RGB数据解决的子任务。改网络从二维图片予以感知出发,实现3D空间的几何推理。

我们需要克服的一个很有挑战的问题是在不计算像素级深度的情况下,准确估计实例的三维中心深度。我们提出了一种全新的实例深度估计(IDE)模块,探索深度特征图的大感受野,将其与高分别率早期高分比率特征融合记性深度估计优化。

为了同时找到纵向与横向的位置,我们首先预测3D中心的2D投影。与IDE结合,我们将投影中心映射到3D空间,从而获得最终3D目标位置。所有组件都集成到一个端到端的网络MonoGRNet,它三个3D推理分支如图1所示,最终通过一个联合几何loss全局最小化3Dbbox的差值。

我们任务RGB信息足以用来进行精准的物体3D定位与姿态估计。在KITTI比赛数据集上的实验结果展示,我们的方法用了最少的推理时间超过了SOTA的3D单目方法的效果。总的来说,我们的贡献有三个方面:

  1. 提出一种先进的升读估计方法,无论遮挡与截断直接在缺少深度信息的前提下预测目标的ABBox-3D中心的深度。
  2. 提出一种先进的3D定位结构,二维图像的丰富特征表达与扩展到3D几何信息推理。
  3. 提出了一种在2D,2.5D,3D空间联合优化的目标左边定位的统一网络,具有高效推理性能(0.06s/张样本)。

2、Related Work

我们的工作与3D目标检测与单目深度估计相关。我们主要专注于3D检测与深度估计的研究,将2D检测作为连贯性基础。

2D目标检测。2D目标检测深度网络已经被广泛研究。基于RPN的方法(Girshick 2015; Ren et al. 2017)可以得到很好的效果,但是由于复杂的多步结构推理速度很慢。另外一类方法(Redmon et al. 2016;Redmon and Farhadi 2017; Liu et al. 2016; Fu et al. 2017)专注于快速使用一个一部检测结构进行快速训练与测试。Multi-net(Teichmann et al. 2016)引入了一种encoder-decoder结构进行实施语义推理。这个检测解码器结合了YOLO(Redmon et al. 2016)的快速回归器与Mask-RCNN(He et al. 2017)的size-adjusting RoiAlign,取得了不错的速度准确率比率均衡。所有这些方法预测目标的2Dbbox而不考虑任何3D几何特征。

3D目标检测。现有的方法包括单目RGB方法(Chen et al. 2016; Xu and Chen 2018; Chabot et al. 2017; Kehl et al. 2017),多视角RGB方法(Chen et al. 2017; Chen et al. 2015; Wang et al.),与基于RGB-D的方法(Qi et al. 2017; Song and Xiao 2016; Liu et al. 2015; Zhang et al. 2014)。如果提供了深度维度的几何信息,那么3D检测会变得简单的多。使用RGB-D数据,FPointNet(Qi et al. 2017)将2D中region proposal的方式扩展到截面的3D视角,在点云中分割出感兴趣的目标。MV3D(Chen et al. 2017

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《邀请进入三维视觉:从图像到几何模型》是一本专门探讨计算机视觉领域中三维视觉的书籍。在这本书中,作者详细介绍了从二维图像数据转化为三维几何模型的方法和技术。 首先,书中强调了三维视觉在计算机视觉领域的重要性。我们的真实世界是三维的,然而计算机被设计成处理和显示二维图像。通过讨论三维视觉的方法和技术,我们可以更好地理解和利用世界的三维信息。 接下来,书中介绍了图像到几何模型的基本步骤。首先,我们需要对二维图像进行处理和分析,以提取出其中蕴含的三维信息。这涉及到特征点的检测、角点的提取以及线段和轮廓的识别等。然后,通过将这些二维信息转化为三维点云来重构场景的几何结构。最后,可以使用点云数据生成和优化三维模型,如三角网格或深度图。 此外,书中还介绍了一些常用的算法和技术,用于在图像中进行深度、姿态和运动的估计。这些算法包括立体匹配、结构光、视差计算、相机标定和运动跟踪等。这些方法和技术在计算机视觉和机器人领域具有广泛的应用价值,如三维重建、SLAM(同步定位与地图构建)、虚拟现实和增强现实等。 最后,书中还探讨了三维视觉研究领域的挑战和未来发展方向。随着深度学习和人工智能的快速发展,三维视觉在图像识别、物体检测和场景理解等方面的应用将会越来越广泛。同时,如何从大规模和多源的图像数据中高效地重建三维模型,以及如何进一步提高三维视觉的准确性和稳定性,都是该领域亟待解决的问题。 总之,《邀请进入三维视觉:从图像到几何模型》是一本全面介绍三维视觉的书籍,它涵盖了从图像处理到几何模型构建的基本步骤,并讨论了相关算法和技术的应用和发展前景。无论是计算机视觉领域的研究者还是工程师,该书都是一本很好的参考和学习资料。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值