基于物体实例级视差估计的双目三维物体检测

AITIME论道

于 2021-05-08 17:16:39 发布

阅读量788

点赞数

文章标签：计算机视觉机器学习人工智能深度学习卷积神经网络

本文链接：https://blog.csdn.net/AITIME_HY/article/details/116549984

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在最近的工作中，许多做双目3D目标检测的研究都是通过首先使用视差估计恢复点云，然后应用3D检测器来解决此类问题，但这种方法需要对整个图像计算视差图，不仅非常昂贵而且无法利用特定于类别的先验。相比之下，一篇来自CVPR2020的题为《Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation》的研究提出了一种新颖的系统——Disp R-CNN，使用双目图像做三维物体的检测。

该研究设计了一个实例视差估计网络(iDispNet)，该网络仅预测感兴趣的对象上像素的视差，并事先学习类别特定的形状以进行更准确的视差估计。在模型的训练过程中，使用统计形状模型来生成密集的视差标签，无需使用LiDAR点云，很好的解决了训练中视差标注稀缺的问题。在KITTI数据集上进行的实验表明，所提出的Disp R-CNN系统具有出色的性能，平均精度比以前最好的方法高出20%，具有更广泛的适用性。

本期AI TIME PhD直播间，我们有幸邀请到了该论文的作者，浙江大学的二年级博士生陈凌昊，为大家分享这项研究工作！

陈凌昊：本科毕业于浙江大学竺可桢学院，目前在浙江大学读博士二年级，导师为周晓巍教授。主要研究方向为三维物体检测跟踪和场景重建。相关研究成果在CVPR等学术期刊会议上发表。

一、背景

1.1 什么是3D检测？

给定一个场景作为输入，作者提出的算法要检测其中所有感兴趣类别的物体（通常是车辆）的3D边界框。根据场景的表示，一般可以分为，单目图像输入、双目图像输入和LiDAR点云输入等。通常基于LiDAR的检测器能够获得的精度是最高的。

在2019的CVPR中，有学者提出先从图像中估计深度或者视差，然后将深度反投影到3D空间，生成伪点云，接着用基于LiDAR的检测器来做3D检测，以此来提升图像检测的精度，从而减小与基于LiDAR的检测器的差距。这篇论文（Pseudo-LiDAR）的原理图如下：

图1. Pseudo-LiDAR流程图

从图1中我们可以发现，由于伪点云的质量不会超过LiDAR的质量，所以基于图像检测的精度不会超过基于LiDAR的检测，而且Pseudo-LiDAR的精度越高，这两者的差距就越小。另外，Pseudo-LiDAR作为中间模块，它的精确度会直接影响3D 检测的精度。由此，基于Pseudo-LiDAR流程图，作者开展了进一步的工作。

1.2 如何提高点云质量？

图2是车辆的3D 边界框的真值以及Pseudo-LiDAR这篇论文估计出的伪点云，可以看出3D 检测器无法从这种质量的伪点云中检测出准确的3D边界框。所以，这篇文章中提到的Pseudo-LiDAR的点云质量是不够好的。那么，是什么原因导致其点云的质量不够好呢？

(1) Pseudo-LiDAR估计了全图所有像素的视差，3D检测能否成功的关键是前景的点云估计的效果，和背景的点云是没有任何关系的，因此当训练全图所有像素的视差的时候，不仅会浪费时间，还会使得神经网络难以学到特定类别的先验形状，尤其是车辆的表面，既缺乏纹理，又是非朗伯表面。所以一般的stereo matching很难获得很好的效果。

(2)

最低0.47元/天解锁文章

AITIME论道

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基于物体实例级视差估计的双目三维物体检测

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！在最近的工作中，许多做双目3D目标检测的研究都是通过首先使用视差估计恢复点云，然后应用3D检测器来解决此类问题，但这种方法需要对整...
复制链接

扫一扫