基于物体实例级视差估计的双目三维物体检测

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在最近的工作中,许多做双目3D目标检测的研究都是通过首先使用视差估计恢复点云,然后应用3D检测器来解决此类问题,但这种方法需要对整个图像计算视差图,不仅非常昂贵而且无法利用特定于类别的先验。相比之下,一篇来自CVPR2020的题为《Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation》的研究提出了一种新颖的系统——Disp R-CNN,使用双目图像做三维物体的检测。

该研究设计了一个实例视差估计网络(iDispNet),该网络仅预测感兴趣的对象上像素的视差,并事先学习类别特定的形状以进行更准确的视差估计。在模型的训练过程中,使用统计形状模型来生成密集的视差标签,无需使用LiDAR点云,很好的解决了训练中视差标注稀缺的问题。在KITTI数据集上进行的实验表明,所提出的Disp R-CNN系统具有出色的性能,平均精度比以前最好的方法高出20%,具有更广泛的适用性。

本期AI TIME PhD直播间,我们有幸邀请到了该论文的作者,浙江大学的二年级博士生陈凌昊,为大家分享这项研究工作!

陈凌昊:本科毕业于浙江大学竺可桢学院,目前在浙江大学读博士二年级,导师为周晓巍教授。主要研究方向为三维物体检测跟踪和场景重建。相关研究成果在CVPR等学术期刊会议上发表。

一、背景

1.1 什么是3D检测?

给定一个场景作为输入,作者提出的算法要检测其中所有感兴趣类别的物体(通常是车辆)的3D边界框。根据场景的表示,一般可以分为,单目图像输入、双目图像输入和LiDAR点云输入等。通常基于LiDAR的检测器能够获得的精度是最高的。

在2019的CVPR中,有学者提出先从图像中估计深度或者视差,然后将深度反投影到3D空间,生成伪点云,接着用基于LiDAR的检测器来做3D检测,以此来提升图像检测的精度,从而减小与基于LiDAR的检测器的差距。这篇论文(Pseudo-LiDAR)的原理图如下:

图1. Pseudo-LiDAR流程图

从图1中我们可以发现,由于伪点云的质量不会超过LiDAR的质量,所以基于图像检测的精度不会超过基于LiDAR的检测,而且Pseudo-LiDAR的精度越高,这两者的差距就越小。另外,Pseudo-LiDAR作为中间模块,它的精确度会直接影响3D 检测的精度。由此,基于Pseudo-LiDAR流程图,作者开展了进一步的工作。

1.2 如何提高点云质量?

图2是车辆的3D 边界框的真值以及Pseudo-LiDAR这篇论文估计出的伪点云,可以看出3D 检测器无法从这种质量的伪点云中检测出准确的3D边界框。所以,这篇文章中提到的Pseudo-LiDAR的点云质量是不够好的。那么,是什么原因导致其点云的质量不够好呢?

(1) Pseudo-LiDAR估计了全图所有像素的视差,3D检测能否成功的关键是前景的点云估计的效果,和背景的点云是没有任何关系的,因此当训练全图所有像素的视差的时候,不仅会浪费时间,还会使得神经网络难以学到特定类别的先验形状,尤其是车辆的表面,既缺乏纹理,又是非朗伯表面。所以一般的stereo matching很难获得很好的效果。

(2)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值