3d目标检测_CVPR 2020 | 港中文提出3D目标检测新框架DSGN

最新推荐文章于 2023-09-16 00:19:35 发布

weixin_39867296

最新推荐文章于 2023-09-16 00:19:35 发布

阅读量381

点赞数

文章标签： 3d目标检测

v2-6c22d013542bf561df46f254e3515fc0_1440w.jpg?source=172ae18b

本文介绍的是香港中文大学贾佳亚团队在CVPR 2020上提出的3D目标检测新框架——深度立体几何网络（Deep Stereo Geometry Network，DSGN）。通过构造一种可导的3D几何体来实现3D目标检测，从而减小了基于图像的方法和基于LiDAR的方法之间的鸿沟。这是第一个一阶段的，基于双目的3D目标检测器，在KITTI 3D目标检测榜单上超越以往基于双目的3D目标检测方法。

论文标题：DSGN: Deep Stereo Geometry Network for 3D Object Detection
论文地址：DSGN: Deep Stereo Geometry Network for 3D Object Detection
开源代码：Jia-Research-Lab/DSGN

一，背景

根据特征的表示方法不同，3D目标检测器主要分为基于图像的3D检测器和基于LiDAR的3D检测器。

基于LiRAD的3D检测器：主要分为基于体素的方法和基于点云的方法；
基于图像的3D检测器：主要分为基于深度估计的方法和基于3D特征的方法；

由于LiDAR传感器能够捕捉准确的3D信息，因此基于LiDAR的3D检测器准确率较高。其不足之处在于LiDAR设备笨重且价格昂贵，得到是带有激光束的稀疏分辨率的数据。相比之下，视频摄像机要便宜很多，并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计，但是准确率仍然无法与基于LiDAR的方法相媲美。

基于深度估计的方法将3D目标检测分为两步：深度估计和目标检测，这其中最大的挑战在于2D网络并不能提取到稳定的3D信息。另一种方案是先利用深度估计产生中间伪点云，再利用基于LiDAR的3D目标检测方法。但是这种方法中的变换是不可导的，并且需要多个独立的网络，还容易出现失真现象。

DSGN是一种基于双目深度估计的，端到端的3D目标检测框架，其核心在于通过空间变换将2D特征转换成有效的3D结构。论文的主要贡献如下：

为了弥补2D图像和3D空间的鸿沟，作者利用立体匹配构建平面扫描体（plane-sweep volume，PSV），并将其转换成3D几何体（3D geometric volume，3DGV），以便能够编码3D几何形状和语义信息。
作者设计了一个端到端的框架，以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的DSGN能同时估计场景深度并检测3D目标，从而实现多种实际应用。
作者提出的简单且完全可导的网络在KITTI排行榜上超越所有其他基于双目深度估计的3D目标检测器（AP高出10个点）。

二，方法

上图展示了DSGN的整体框架图。将双目图像对

作为输入，利用权重共享的孪生网络提取特征，并构建一个平面扫描体（PSV），它可以学习逐像素的对应关系。接着通过可导的warping操作，将PSV转换为3D几何体（3DGV），从而构建3D世界坐标系的3D几何特征。最后利用3D卷积网络作用于3DGV进行3D目标检测。

特征提取

作者借鉴PSMNet[1]的特征提取器作为深度估计和3D目标检测的共享特征提取网络。为了提取更多的高层次特征，并且减少计算量，主要进行了以下改动：

将更多的计算从conv_3转到conv_4和conv_5，比如从conv_2到conv_5的基本模块的通道数从{3,16,3,3}变成{3,6,12,4}。
PSMNet中的SPP模块增加了conv_4和conv_5。
conv_1的输出通道数和残差模块的输出通道数有所改变。

详细的网络结构可参考论文中的附录部分。

构建3DGV

（1）Plane-Sweep Volume

在双目立体匹配中，一对左右图像

用来构造基于视差的匹配代价体（cost volume），它计算了左右图像的像素点在水平方向上的位移是视差

的匹配代价。根据基于cost volume的立体匹配方法，连接左右图特征构造PSV，它的坐标表示为

，其中

表示图像上在该位置的像素点，

表示垂直于图像平面的深度信息。那么$(u,v,d)$空间可以被称为

相机坐标系。

之后利用3D Hourglass网络进行代价聚合。对于视差/深度估计，利用可导的soft argmin 操作来计算所有概率为

的深度候选值的期望：

其中深度的候选值在间隔为

的预定义网格（即

）内均匀采样。再利用softmax函数使得模型为每个像素点只选择一个深度值，从而完成深度估计。

（2）3D Geometric Volume

有了照相机坐标，在已知摄像机内参的情况下，可以利用相机投影矩阵

实现从世界坐标系到相机坐标系的转换。假设世界坐标系表示为

，而前面的相机坐标表示为

，经典的转换方法是从世界坐标系到相机坐标系：

而现在PSV的最后一层特征作为已知的相机坐标系，要想得到世界坐标系，因此需要使用相机投影矩阵的逆矩阵

。

其中

和

分别是水平方向和竖直方向的焦距，

和

是相机位姿参数。该操作是完全可导的，可以利用三线性差值的warp操作实现。

（3）3D目标检测器

对于3D目标检测网络部分，作者借鉴anchor-free的方法FCOS[2]中的centerness思想，设计了一种基于距离的策略来分配目标，同时也继续保持anchor。

具体来说，令3DGV中的特征图大小为

，经过逐步下采样操作，得到用于鸟瞰视角的特征图

，其大小为

。

对于

中的每一个位置

，放置几个不同方向和大小的anchor。假设anchors用

表示，而GT目标框用

表示，那么它们的位置，预设大小和方向定义如下：

Anchors：
GT：
预测值：

其中

是anchor方向的数量，

是每个参数学习的偏置。

沿用FCOS中的centerness思想，作者利用anchor和GT在8个角上的坐标距离作为目标分配的策略：

将与GT最近的N个样本作为正样本，其中

，

是GT中体素的个数，而

用来调整正样本的个数。最终的centerness定义如下：

其中的范数表示最小-最大归一化。

多任务训练

DSGN的整个网络同时进行双目深度估计和3D目标检测，因此是一个多任务训练过程，整体loss如下：

对于深度估计，采用smooth L1 loss，

是GT中的有效像素点，

对于3D目标检测的分类任务，采用focal loss避免样本不平衡的缺陷，$N_{pos}$ 是正样本的个数，对于centerness采用BCE loss。

对于3D目标检测的回归任务，采用smooth L1 loss进行回归，

三，实验

作者在KITTI 3D目标检测数据集上进行实验评测，该数据集包含7481张训练图像对和7518张测试图像对，分为Car, Pedestrian 和 Cyclist 三种类型。下面是在测试集上的主要结果：

从表中可以看出，对于3D和BEV（Bird's Eye View）目标检测，DSGN超越了所有基于图像的3D目标检测器；在2D检测上，也仅仅比3DOP要差一点。值得一提的是，DSGN首次得到了与基于LiDAR的目标检测器MV3D相当的准确率，该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了3DGV的有效性，表明3DGV构建了2D图像和3D空间的桥梁。

作者将训练集分成一半训练集，一半验证集进行消融分析，下面是消融实验的结果：

从上表中可以得到以下几个结论：

点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。

在有点云监督的情况下，基于双目的方法要远远优于基于单目的方法。再次证明仅仅有3D检测框的监督信息是不充分的，基于双目的深度信息对于3D检测相当重要。
PSV对于3D结构是一种更合适的特征表示。PSCV相比于CV的不同在于从相机坐标系到世界坐标系的转换，对于3D检测AP从45.89提升到54.27。
PSV作为一种中间编码方式能更有效地包含深度信息，因为它是深度估计网络的中间特征。

四，讨论和总结

Stereo RCNN[3]是CVPR 2019的3D目标检测器，它是通过扩展Faster RCNN，以双目图像作为输入的端到端3D检测器。我们可以通过比较DSGN和Stereo RCNN的不同之处来更好的理解DSGN。

DSGN是one-stage的目标检测器，而Stereo RCNN是two-stage的。
DSGN利用了深度点云信息作为深度估计网络的监督，从而实现深度估计和3D目标检测的多任务学习，而Stereo RCNN仅有3D检测框的监督信息。这种点云监督信息使得DSGN中的PSV成为更好的特征表示，这可能是DSGN性能大大提升的根本所在。
从目标检测的角度看，二者都采用了anchor，不过DSGN借鉴了anchor-free的centerness思想，使得检测性能更优。

参考文献

[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.

[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.

[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

weixin_39867296

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
3d目标检测_CVPR 2020 | 港中文提出3D目标检测新框架DSGN

本文介绍的是香港中文大学贾佳亚团队在CVPR 2020上提出的3D目标检测新框架——深度立体几何网络（Deep Stereo Geometry Network，DSGN）。通过构造一种可导的3D几何体来实现3D目标检测，从而减小了基于图像的方法和基于LiDAR的方法之间的鸿沟。这是第一个一阶段的，基于双目的3D目标检测器，在KITTI 3D目标检测榜单上超越以往基于双目的3D目标检测方法。论文标题...
复制链接

扫一扫