点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
在最近的工作中,许多做双目3D目标检测的研究都是通过首先使用视差估计恢复点云,然后应用3D检测器来解决此类问题,但这种方法需要对整个图像计算视差图,不仅非常昂贵而且无法利用特定于类别的先验。相比之下,一篇来自CVPR2020的题为《Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation》的研究提出了一种新颖的系统——Disp R-CNN,使用双目图像做三维物体的检测。
该研究设计了一个实例视差估计网络(iDispNet),该网络仅预测感兴趣的对象上像素的视差,并事先学习类别特定的形状以进行更准确的视差估计。在模型的训练过程中,使用统计形状模型来生成密集的视差标签,无需使用LiDAR点云,很好的解决了训练中视差标注稀缺的问题。在KITTI数据集上进行的实验表明,所提出的Disp R-CNN系统具有出色的性能,平均精度比以前最好的方法高出20%,具有更广泛的适用性。
本期AI TIME PhD直播间,我们有幸邀请到了该论文的作者,浙江大学的二年级博士生陈凌昊,为大家分享这项研究工作!
陈凌昊:本科毕业于浙江大学竺可桢学院,目前在浙江大学读博士二年级,导师为周晓巍教授。主要研究方向为三维物体检测跟踪和场景重建。相关研究成果在CVPR等学术期刊会议上发表。
一、背景
1.1 什么是3D检测?
给定一个场景作为输入,作者提出的算法要检测其中所有感兴趣类别的物体(通常是车辆)的3D边界框。根据场景的表示,一般可以分为,单目图像输入、双目图像输入和LiDAR点云输入等。通常基于LiDAR的检测器能够获得的精度是最高的。
在2019的CVPR中,有学者提出先从图像中估计深度或者视差,然后将深度反投影到3D空间,生成伪点云,接着用基于LiDAR的检测器来做3D检测,以此来提升图像检测的精度,从而减小与基于LiDAR的检测器的差距。这篇论文(Pseudo-LiDAR)的原理图如下:
图1. Pseudo-LiDAR流程图
从图1中我们可以发现,由于伪点云的质量不会超过LiDAR的质量,所以基于图像检测的精度不会超过基于LiDAR的检测,而且Pseudo-LiDAR的精度越高,这两者的差距就越小。另外,Pseudo-LiDAR作为中间模块,它的精确度会直接影响3D 检测的精度。由此,基于Pseudo-LiDAR流程图,作者开展了进一步的工作。
1.2 如何提高点云质量?
图2是车辆的3D 边界框的真值以及Pseudo-LiDAR这篇论文估计出的伪点云,可以看出3D 检测器无法从这种质量的伪点云中检测出准确的3D边界框。所以,这篇文章中提到的Pseudo-LiDAR的点云质量是不够好的。那么,是什么原因导致其点云的质量不够好呢?
(1) Pseudo-LiDAR估计了全图所有像素的视差,3D检测能否成功的关键是前景的点云估计的效果,和背景的点云是没有任何关系的,因此当训练全图所有像素的视差的时候,不仅会浪费时间,还会使得神经网络难以学到特定类别的先验形状,尤其是车辆的表面,既缺乏纹理,又是非朗伯表面。所以一般的stereo matching很难获得很好的效果。
(2)