![v2-6c22d013542bf561df46f254e3515fc0_1440w.jpg?source=172ae18b](http://img-03.proxy.5ce.com/view/image?&type=2&guid=aa93a111-f52f-eb11-8da9-e4434bdf6706&url=https://pic1.zhimg.com/v2-6c22d013542bf561df46f254e3515fc0_1440w.jpg?source=172ae18b)
本文介绍的是香港中文大学贾佳亚团队在CVPR 2020上提出的3D目标检测新框架——深度立体几何网络(Deep Stereo Geometry Network,DSGN)。通过构造一种可导的3D几何体来实现3D目标检测,从而减小了基于图像的方法和基于LiDAR的方法之间的鸿沟。这是第一个一阶段的,基于双目的3D目标检测器,在KITTI 3D目标检测榜单上超越以往基于双目的3D目标检测方法。
![v2-412f9296ad9b152df502d34ba80e3001_b.jpg](http://img-03.proxy.5ce.com/view/image?&type=2&guid=aa93a111-f52f-eb11-8da9-e4434bdf6706&url=https://pic2.zhimg.com/v2-412f9296ad9b152df502d34ba80e3001_b.jpg)
- 论文标题:DSGN: Deep Stereo Geometry Network for 3D Object Detection
- 论文地址:DSGN: Deep Stereo Geometry Network for 3D Object Detection
- 开源代码:Jia-Research-Lab/DSGN
一,背景
根据特征的表示方法不同,3D目标检测器主要分为基于图像的3D检测器和基于LiDAR的3D检测器。
- 基于LiRAD的3D检测器:主要分为基于体素的方法和基于点云的方法;
- 基于图像的3D检测器:主要分为基于深度估计的方法和基于3D特征的方法;
由于LiDAR传感器能够捕捉准确的3D信息,因此基于LiDAR的3D检测器准确率较高。其不足之处在于LiDAR设备笨重且价格昂贵,得到是带有激光束的稀疏分辨率的数据。相比之下,视频摄像机要便宜很多,并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计,但是准确率仍然无法与基于LiDAR的方法相媲美。
基于深度估计的方法将3D目标检测分为两步:深度估计和目标检测,这其中最大的挑战在于2D网络并不能提取到稳定的3D信息。另一种方案是先利用深度估计产生中间伪点云,再利用基于LiDAR的3D目标检测方法。但是这种方法中的变换是不可导的,并且需要多个独立的网络,还容易出现失真现象。
DSGN是一种基于双目深度估计的,端到端的3D目标检测框架,其核心在于通过空间变换将2D特征转换成有效的3D结构。论文的主要贡献如下:
- 为了弥补2D图像和3D空间的鸿沟,作者利用立体匹配构建平面扫描体(plane-sweep volume,PSV),并将其转换成3D几何体(3D geometric volume,3DGV),以便能够编码3D几何形状和语义信息。
- 作者设计了一个端到端的框架,以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的DSGN能同时估计场景深度并检测3D目标,从而实现多种实际应用。
- 作者提出的简单且完全可导的网络在KITTI排行榜上超越所有其他基于双目深度估计的3D目标检测器(AP高出10个点)。
二,方法
![v2-2990addf8028b6c5ea60c1c66f84fe69_b.jpg](http://img-03.proxy.5ce.com/view/image?&type=2&guid=aa93a111-f52f-eb11-8da9-e4434bdf6706&url=https://pic2.zhimg.com/v2-2990addf8028b6c5ea60c1c66f84fe69_b.jpg)
上图展示了DSGN的整体框架图。将双目图像对
特征提取
作者借鉴PSMNet[1]的特征提取器作为深度估计和3D目标检测的共享特征提取网络。为了提取更多的高层次特征,并且减少计算量,主要进行了以下改动:
- 将更多的计算从conv_3转到conv_4和conv_5,比如从conv_2到conv_5的基本模块的通道数从{3,16,3,3}变成{3,6,12,4}。
- PSMNet中的SPP模块增加了conv_4和conv_5。
- conv_1的输出通道数和残差模块的输出通道数有所改变。
详细的网络结构可参考论文中的附录部分。
构建3DGV
(1)Plane-Sweep Volume
在双目立体匹配中,一对左右图像
之后利用3D Hourglass网络进行代价聚合。对于视差/深度估计,利用可导的soft argmin 操作来计算所有概率为
其中深度的候选值在间隔为
(2)3D Geometric Volume
有了照相机坐标,在已知摄像机内参的情况下,可以利用相机投影矩阵
而现在PSV的最后一层特征作为已知的相机坐标系,要想得到世界坐标系,因此需要使用相机投影矩阵的逆矩阵
其中
(3)3D目标检测器
对于3D目标检测网络部分,作者借鉴anchor-free的方法FCOS[2]中的centerness思想,设计了一种基于距离的策略来分配目标,同时也继续保持anchor。
具体来说,令3DGV中的特征图大小为
对于
- Anchors:
- GT:
- 预测值:
其中
沿用FCOS中的centerness思想,作者利用anchor和GT在8个角上的坐标距离作为目标分配的策略:
将与GT最近的N个样本作为正样本,其中
其中的范数表示最小-最大归一化。
多任务训练
DSGN的整个网络同时进行双目深度估计和3D目标检测,因此是一个多任务训练过程,整体loss如下:
对于深度估计,采用smooth L1 loss,
对于3D目标检测的分类任务,采用focal loss避免样本不平衡的缺陷,$N_{pos}$ 是正样本的个数,对于centerness采用BCE loss。
对于3D目标检测的回归任务,采用smooth L1 loss进行回归,
三,实验
作者在KITTI 3D目标检测数据集上进行实验评测,该数据集包含7481张训练图像对和7518张测试图像对,分为Car, Pedestrian 和 Cyclist 三种类型。下面是在测试集上的主要结果:
![v2-26da6893339813afa848f7c903a15673_b.jpg](http://img-03.proxy.5ce.com/view/image?&type=2&guid=aa93a111-f52f-eb11-8da9-e4434bdf6706&url=https://pic4.zhimg.com/v2-26da6893339813afa848f7c903a15673_b.jpg)
从表中可以看出,对于3D和BEV(Bird's Eye View)目标检测,DSGN超越了所有基于图像的3D目标检测器;在2D检测上,也仅仅比3DOP要差一点。值得一提的是,DSGN首次得到了与基于LiDAR的目标检测器MV3D相当的准确率,该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了3DGV的有效性,表明3DGV构建了2D图像和3D空间的桥梁。
作者将训练集分成一半训练集,一半验证集进行消融分析,下面是消融实验的结果:
![v2-d09b9c72474524f7d8d8572e7051f5a3_b.jpg](http://img-01.proxy.5ce.com/view/image?&type=2&guid=aa93a111-f52f-eb11-8da9-e4434bdf6706&url=https://pic4.zhimg.com/v2-d09b9c72474524f7d8d8572e7051f5a3_b.jpg)
从上表中可以得到以下几个结论:
点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。
- 在有点云监督的情况下,基于双目的方法要远远优于基于单目的方法。再次证明仅仅有3D检测框的监督信息是不充分的,基于双目的深度信息对于3D检测相当重要。
- PSV对于3D结构是一种更合适的特征表示。PSCV相比于CV的不同在于从相机坐标系到世界坐标系的转换,对于3D检测AP从45.89提升到54.27。
- PSV作为一种中间编码方式能更有效地包含深度信息,因为它是深度估计网络的中间特征。
四,讨论和总结
Stereo RCNN[3]是CVPR 2019的3D目标检测器,它是通过扩展Faster RCNN,以双目图像作为输入的端到端3D检测器。我们可以通过比较DSGN和Stereo RCNN的不同之处来更好的理解DSGN。
- DSGN是one-stage的目标检测器,而Stereo RCNN是two-stage的。
- DSGN利用了深度点云信息作为深度估计网络的监督,从而实现深度估计和3D目标检测的多任务学习,而Stereo RCNN仅有3D检测框的监督信息。这种点云监督信息使得DSGN中的PSV成为更好的特征表示,这可能是DSGN性能大大提升的根本所在。
- 从目标检测的角度看,二者都采用了anchor,不过DSGN借鉴了anchor-free的centerness思想,使得检测性能更优。
参考文献
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.
[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.
[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.