MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

最新推荐文章于 2024-05-27 09:51:54 发布

abrams90

最新推荐文章于 2024-05-27 09:51:54 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习深度学习读书笔记文章标签： 3D detection muti-task vehicle detection 3D定位与姿态估计单目3D

本文链接：https://blog.csdn.net/abrams90/article/details/98484420

版权

MonoGRNet是一种利用单目RGB图像进行三维目标定位的算法，通过四个子任务网络进行2D检测、实例深度估计、3D定位和角点回归。针对像素级深度预测的不足，MonoGRNet提出了一种新的实例深度估计模块，仅使用3Dbbox标注就能进行高效、精确的3D定位，实现在挑战数据集上的SOTA表现。

摘要由CSDN通过智能技术生成

Abstract

利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难，而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理，用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构，四个子任务分别是2D目标检测，实例深度估计（IDE），3D定位与本地角点回归。与需要进行像素级别标注的像素级深度估计方法不同，我们提出的先进的IDE算法直接利用稀疏监督预测目标3Dbbox中心的深度。通过估计水平和垂直方向的位置，进一步实现了3D定位。最后，MonoGRNet利用全局上下文联合优化定位与3DBbox。结果展示MonoGRNet在挑战数据集上达到了SOTA的表现。

1、Introduction

典型的目标定位或者检测是从RGB图像中估计2Dbbox，将图像平面上特定类型的可见部分用2Dbbox框住。然而，这类的结果在场景理解的时候不能提供真实3D世界的几何认知信息，这对例如机器人，混合现实与自动驾驶来说有着十分迫切的需求。

本文我们解决从单目RGB图片中定位目标完整的模态3Dbbox（ABBox-3D）。与图像平面的2D分析相比，扩展到不可视区域的3D定位（例如深度），不仅扩大了搜索空间而且引入了固有2D到3D映射过程的不确定性，严重增加了任务的难度。

最SOTA的单目方法（Xu and Chen 2018; Zhuo et al. 2018）估计像素级别的深度然后进行3Dbbox的回归。然而像素级的深度预测用设计来说不是用于目标定位的。他的目标是使得所有像素的平均误差最小，从而得到整个图像的平均最优估计，而覆盖面积小的目标往往被忽略掉（Fu et al. 2018），这样大幅度的降低了3D检测的准确率。

我们提出了MonoGRNet，一种从单目图片中进行模态3D目标定位的方法。这种方法的关键思想是将3D定位问题转换成数个先进的可以利用单目RGB数据解决的子任务。改网络从二维图片予以感知出发，实现3D空间的几何推理。

我们需要克服的一个很有挑战的问题是在不计算像素级深度的情况下，准确估计实例的三维中心深度。我们提出了一种全新的实例深度估计（IDE）模块，探索深度特征图的大感受野，将其与高分别率早期高分比率特征融合记性深度估计优化。

为了同时找到纵向与横向的位置，我们首先预测3D中心的2D投影。与IDE结合，我们将投影中心映射到3D空间，从而获得最终3D目标位置。所有组件都集成到一个端到端的网络MonoGRNet，它三个3D推理分支如图1所示，最终通过一个联合几何loss全局最小化3Dbbox的差值。

我们任务RGB信息足以用来进行精准的物体3D定位与姿态估计。在KITTI比赛数据集上的实验结果展示，我们的方法用了最少的推理时间超过了SOTA的3D单目方法的效果。总的来说，我们的贡献有三个方面：

提出一种先进的升读估计方法，无论遮挡与截断直接在缺少深度信息的前提下预测目标的ABBox-3D中心的深度。
提出一种先进的3D定位结构，二维图像的丰富特征表达与扩展到3D几何信息推理。
提出了一种在2D，2.5D，3D空间联合优化的目标左边定位的统一网络，具有高效推理性能（0.06s/张样本）。

2、Related Work

我们的工作与3D目标检测与单目深度估计相关。我们主要专注于3D检测与深度估计的研究，将2D检测作为连贯性基础。

2D目标检测。2D目标检测深度网络已经被广泛研究。基于RPN的方法（Girshick 2015; Ren et al. 2017）可以得到很好的效果，但是由于复杂的多步结构推理速度很慢。另外一类方法（Redmon et al. 2016;Redmon and Farhadi 2017; Liu et al. 2016; Fu et al. 2017）专注于快速使用一个一部检测结构进行快速训练与测试。Multi-net（Teichmann et al. 2016）引入了一种encoder-decoder结构进行实施语义推理。这个检测解码器结合了YOLO（Redmon et al. 2016）的快速回归器与Mask-RCNN（He et al. 2017）的size-adjusting RoiAlign，取得了不错的速度准确率比率均衡。所有这些方法预测目标的2Dbbox而不考虑任何3D几何特征。

3D目标检测。现有的方法包括单目RGB方法（Chen et al. 2016; Xu and Chen 2018; Chabot et al. 2017; Kehl et al. 2017），多视角RGB方法（Chen et al. 2017; Chen et al. 2015; Wang et al.），与基于RGB-D的方法（Qi et al. 2017; Song and Xiao 2016; Liu et al. 2015; Zhang et al. 2014）。如果提供了深度维度的几何信息，那么3D检测会变得简单的多。使用RGB-D数据，FPointNet（Qi et al. 2017）将2D中region proposal的方式扩展到截面的3D视角，在点云中分割出感兴趣的目标。MV3D（Chen et al. 2017）在LIDAR点云的鸟瞰图上进行3D目标的proposal，在RGB图片、LIDAR前向图、与鸟瞰图上复用这些特征进行3Dbbox的预测。3DOP（Chen et al. 2015）使用用于自动驾驶的立体信息与上下文模型。

与我们的方法最相关的是单目RGB图像的方法。深度维度中信息的丢失显著增加了任务的难度。这些方法的

最低0.47元/天解锁文章

abrams90

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

Abstract利用RGB单张图片在真实3D场景进行目标定位由于图像投影过程几何信息的丢失变得相当困难，而这个工作在场景理解中有相当重要的作用。我们提出了通过观察到的2D投影与未观察到的深度维度进行几何推理，用于单目RGB图像三维定位的MonoGRNet算法。MonoGRNet是一个由四个特定子任务网络组成的单一统一的网络结构，四个子任务分别是2D目标检测，实例深度估计（IDE），3D定位与本...
复制链接

扫一扫

专栏目录