3d目标检测_CVPR 2020 | 港中文提出3D目标检测新框架DSGN

v2-6c22d013542bf561df46f254e3515fc0_1440w.jpg?source=172ae18b

本文介绍的是香港中文大学贾佳亚团队在CVPR 2020上提出的3D目标检测新框架——深度立体几何网络(Deep Stereo Geometry Network,DSGN)。通过构造一种可导的3D几何体来实现3D目标检测,从而减小了基于图像的方法和基于LiDAR的方法之间的鸿沟。这是第一个一阶段的,基于双目的3D目标检测器,在KITTI 3D目标检测榜单上超越以往基于双目的3D目标检测方法。

v2-412f9296ad9b152df502d34ba80e3001_b.jpg
  • 论文标题:DSGN: Deep Stereo Geometry Network for 3D Object Detection
  • 论文地址:DSGN: Deep Stereo Geometry Network for 3D Object Detection
  • 开源代码:Jia-Research-Lab/DSGN

一,背景

根据特征的表示方法不同,3D目标检测器主要分为基于图像的3D检测器和基于LiDAR的3D检测器。

  • 基于LiRAD的3D检测器:主要分为基于体素的方法和基于点云的方法;
  • 基于图像的3D检测器:主要分为基于深度估计的方法和基于3D特征的方法;

由于LiDAR传感器能够捕捉准确的3D信息,因此基于LiDAR的3D检测器准确率较高。其不足之处在于LiDAR设备笨重且价格昂贵,得到是带有激光束的稀疏分辨率的数据。相比之下,视频摄像机要便宜很多,并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计,但是准确率仍然无法与基于LiDAR的方法相媲美。

基于深度估计的方法将3D目标检测分为两步:深度估计和目标检测,这其中最大的挑战在于2D网络并不能提取到稳定的3D信息。另一种方案是先利用深度估计产生中间伪点云,再利用基于LiDAR的3D目标检测方法。但是这种方法中的变换是不可导的,并且需要多个独立的网络,还容易出现失真现象。

DSGN是一种基于双目深度估计的,端到端的3D目标检测框架,其核心在于通过空间变换将2D特征转换成有效的3D结构。论文的主要贡献如下:

  • 为了弥补2D图像和3D空间的鸿沟,作者利用立体匹配构建平面扫描体(plane-sweep volume,PSV),并将其转换成3D几何体(3D geometric volume,3DGV),以便能够编码3D几何形状和语义信息。
  • 作者设计了一个端到端的框架,以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的DSGN能同时估计场景深度并检测3D目标,从而实现多种实际应用。
  • 作者提出的简单且完全可导的网络在KITTI排行榜上超越所有其他基于双目深度估计的3D目标检测器(AP高出10个点)。

二,方法

v2-2990addf8028b6c5ea60c1c66f84fe69_b.jpg

上图展示了DSGN的整体框架图。将双目图像对

作为输入,利用权重共享的孪生网络提取特征,并构建一个平面扫描体(PSV),它可以学习逐像素的对应关系。接着通过可导的warping操作,将PSV转换为3D几何体(3DGV),从而构建3D世界坐标系的3D几何特征。最后利用3D卷积网络作用于3DGV进行3D目标检测。

特征提取

作者借鉴PSMNet[1]的特征提取器作为深度估计和3D目标检测的共享特征提取网络。为了提取更多的高层次特征,并且减少计算量,主要进行了以下改动:

  1. 将更多的计算从conv_3转到conv_4和conv_5,比如从conv_2到conv_5的基本模块的通道数从{3,16,3,3}变成{3,6,12,4}。
  2. PSMNet中的SPP模块增加了conv_4和conv_5。
  3. conv_1的输出通道数和残差模块的输出通道数有所改变。

详细的网络结构可参考论文中的附录部分。

构建3DGV

(1)Plane-Sweep Volume

在双目立体匹配中,一对左右图像

用来构造基于视差的匹配代价体(cost volume),它计算了左右图像的像素点在水平方向上的位移是视差
的匹配代价。根据基于cost volume的立体匹配方法,连接左右图特征构造PSV,它的坐标表示为
,其中
表示图像上在该位置的像素点,
表示垂直于图像平面的深度信息。那么$(u,v,d)$空间可以被称为
相机坐标系

之后利用3D Hourglass网络进行代价聚合。对于视差/深度估计,利用可导的soft argmin 操作来计算所有概率为

的深度候选值的期望:

其中深度的候选值在间隔为

的预定义网格(即
)内均匀采样。再利用softmax函数使得模型为每个像素点只选择一个深度值,从而完成深度估计。

(2)3D Geometric Volume

有了照相机坐标,在已知摄像机内参的情况下,可以利用相机投影矩阵

实现从世界坐标系到相机坐标系的转换。假设世界坐标系表示为
,而前面的相机坐标表示为
,经典的转换方法是从世界坐标系到相机坐标系:

而现在PSV的最后一层特征作为已知的相机坐标系,要想得到世界坐标系,因此需要使用相机投影矩阵的逆矩阵

其中

分别是水平方向和竖直方向的焦距,
是相机位姿参数。该操作是完全可导的,可以利用三线性差值的warp操作实现。

(3)3D目标检测器

对于3D目标检测网络部分,作者借鉴anchor-free的方法FCOS[2]中的centerness思想,设计了一种基于距离的策略来分配目标,同时也继续保持anchor。

具体来说,令3DGV中的特征图大小为

,经过逐步下采样操作,得到用于鸟瞰视角的特征图
,其大小为

对于

中的每一个位置
,放置几个不同方向和大小的anchor。假设anchors用
表示,而GT目标框用
表示,那么它们的位置,预设大小和方向定义如下:
  • Anchors:
  • GT:
  • 预测值:

其中

是anchor方向的数量,
是每个参数学习的偏置。

沿用FCOS中的centerness思想,作者利用anchor和GT在8个角上的坐标距离作为目标分配的策略:

将与GT最近的N个样本作为正样本,其中

是GT中体素的个数,而
用来调整正样本的个数。最终的centerness定义如下:

其中的范数表示最小-最大归一化。

多任务训练

DSGN的整个网络同时进行双目深度估计和3D目标检测,因此是一个多任务训练过程,整体loss如下:

对于深度估计,采用smooth L1 loss,

是GT中的有效像素点,

对于3D目标检测的分类任务,采用focal loss避免样本不平衡的缺陷,$N_{pos}$ 是正样本的个数,对于centerness采用BCE loss。

对于3D目标检测的回归任务,采用smooth L1 loss进行回归,

三,实验

作者在KITTI 3D目标检测数据集上进行实验评测,该数据集包含7481张训练图像对和7518张测试图像对,分为Car, Pedestrian 和 Cyclist 三种类型。下面是在测试集上的主要结果:

v2-26da6893339813afa848f7c903a15673_b.jpg

从表中可以看出,对于3D和BEV(Bird's Eye View)目标检测,DSGN超越了所有基于图像的3D目标检测器;在2D检测上,也仅仅比3DOP要差一点。值得一提的是,DSGN首次得到了与基于LiDAR的目标检测器MV3D相当的准确率,该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了3DGV的有效性,表明3DGV构建了2D图像和3D空间的桥梁。

作者将训练集分成一半训练集,一半验证集进行消融分析,下面是消融实验的结果:

v2-d09b9c72474524f7d8d8572e7051f5a3_b.jpg

从上表中可以得到以下几个结论:

点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。

  • 在有点云监督的情况下,基于双目的方法要远远优于基于单目的方法。再次证明仅仅有3D检测框的监督信息是不充分的,基于双目的深度信息对于3D检测相当重要。
  • PSV对于3D结构是一种更合适的特征表示。PSCV相比于CV的不同在于从相机坐标系到世界坐标系的转换,对于3D检测AP从45.89提升到54.27。
  • PSV作为一种中间编码方式能更有效地包含深度信息,因为它是深度估计网络的中间特征。

四,讨论和总结

Stereo RCNN[3]是CVPR 2019的3D目标检测器,它是通过扩展Faster RCNN,以双目图像作为输入的端到端3D检测器。我们可以通过比较DSGN和Stereo RCNN的不同之处来更好的理解DSGN。

  • DSGN是one-stage的目标检测器,而Stereo RCNN是two-stage的。
  • DSGN利用了深度点云信息作为深度估计网络的监督,从而实现深度估计和3D目标检测的多任务学习,而Stereo RCNN仅有3D检测框的监督信息。这种点云监督信息使得DSGN中的PSV成为更好的特征表示,这可能是DSGN性能大大提升的根本所在。
  • 从目标检测的角度看,二者都采用了anchor,不过DSGN借鉴了anchor-free的centerness思想,使得检测性能更优。

参考文献

[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.

[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.

[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值