CVPR 2020 | 港中文提出3D目标检测新框架DSGN

最新推荐文章于 2022-07-05 10:34:06 发布

PaperWeekly

最新推荐文章于 2022-07-05 10:34:06 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105570575

版权

©PaperWeekly 原创 · 作者｜张承灏

学校｜中科院自动化所硕士生

研究方向｜双目深度估计

本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架——深度立体几何网络（Deep Stereo Geometry Network，DSGN）。

通过构造一种可导的 3D 几何体来实现 3D 目标检测，从而减小了基于图像的方法和基于 LiDAR 的方法之间的鸿沟。这是第一个一阶段的，基于双目的 3D 目标检测器，在 KITTI 3D 目标检测榜单上超越以往基于双目的 3D 目标检测方法。

论文标题：DSGN: Deep Stereo Geometry Network for 3D Object Detection

论文地址：https://arxiv.org/abs/2001.03398

开源代码：https://github.com/chenyilun95/DSGN

背景

根据特征的表示方法不同，3D 目标检测器主要分为基于图像的 3D 检测器和基于 LiDAR 的 3D 检测器。

由于 LiDAR 传感器能够捕捉准确的 3D 信息，因此基于 LiDAR 的 3D 检测器准确率较高。其不足之处在于 LiDAR 设备笨重且价格昂贵，得到是带有激光束的稀疏分辨率的数据。

相比之下，视频摄像机要便宜很多，并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计，但是准确率仍然无法与基于 LiDAR 的方法相媲美。

基于深度估计的方法将 3D 目标检测分为两步：深度估计和目标检测，这其中最大的挑战在于 2D 网络并不能提取到稳定的 3D 信息。

另一种方案是先利用深度估计产生中间伪点云，再利用基于 LiDAR 的 3D 目标检测方法。但是这种方法中的变换是不可导的，并且需要多个独立的网络，还容易出现失真现象。

DSGN 是一种基于双目深度估计的，端到端的 3D 目标检测框架，其核心在于通过空间变换将 2D 特征转换成有效的 3D 结构。论文的主要贡献如下：

为了弥补 2D 图像和 3D 空间的鸿沟，作者利用立体匹配构建平面扫描体（plane-sweep volume，PSV），并将其转换成 3D 几何体（3D geometric volume，3DGV），以便能够编码 3D 几何形状和语义信息。
作者设计了一个端到端的框架，以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的 DSGN 能同时估计场景深度并检测 3D 目标，从而实现多种实际应用。
作者提出的简单且完全可导的网络在 KITTI 排行榜上超越所有其他基于双目深度估计的 3D 目标检测器（AP 高出 10 个点）。

方法

上图展示了 DSGN 的整体框架图。将双目图像对作为输入，利用权重共享的孪生网络提取特征，并构建一个平面扫描体（PSV），它可以学习逐像素的对应关系。

接着通过可导的 warping 操作，将 PSV 转换为 3D 几何体（3DGV），从而构建 3D 世界坐标系的 3D 几何特征。最后利用 3D 卷积网络作用于 3DGV 进行 3D 目标检测。

作者借鉴 PSMNet [1] 的特征提取器作为深度估计和 3D 目标检测的共享特征提取网络。为了提取更多的高层次特征，并且减少计算量，主要进行了以下改动：

将更多的计算从 conv_3 转到 conv_4 和 conv_5，比如从 conv_2 到 conv_5 的基本模块的通道数从 {3,16,3,3} 变成 {3,6,12,4}。
PSMNet 中的 SPP 模块增加了 conv_4 和 conv_5。
conv_1 的输出通道数和残差模块的输出通道数有所改变。

详细的网络结构可参考论文中的附录部分。

论文的核心是如何构建带有 3D 几何特征的 3DGV，它是由 PSV 经过 warping 操作转换得到。3DGV 可以看做是 3D 世界坐标系的 3D 体素网格，它的大小是，分别沿摄像机视角的右方，下方和前方。每个体素的大小是

关注