3D目标检测---MV3D笔记(初写)

原文链接:https://arxiv.org/abs/1611.07759

该文章参加了2017年CVPR顶级会议

1.创新点

提出了一种紧凑的多视角表示方法来编码稀疏的3D点云数据。该方法将点云投影到鸟瞰图和前视图两个视角。
设计了一个3D目标提议网络,3D 提案网络利用点云的鸟瞰图表示来生成高度准确的 3d 候选框。与基于图像的方法相比,可以更准确预测3D位置。
提出了一个基于区域的多视角特征融合网络。通过从多个视图向特征地图投 影三维方案来提取区域特征。设计了一种深度融合方法, 从不同角度实现中间层的相互作用。
鉴于多视图特征表示,网络执行面向三维盒回归, 预测三维空间中物体的准确三维位置,大小和方向。
在KITTI数据集上进行评估,与当时其他基于激光雷达或图像的方法相比,该方法在3D定位和3D检测任务上取得了明显提高,约25%-30%的增益。
即使该方法优化的是3D框,但投影到图像平面进行2D检测,其性能也可以与当时专门优化2D框的方法相媲美

特别是在只有 300 个提案的情 况下,在 Intersection-over-Union (IoU)阈值为 0.25 和 0.5 时,我们分别获得了 99.1% 和 91% 的三维召回率。激光雷达该方法在三维定位任务中提高了 25% 的精度,在三维物体 检测中提高了 30% 的平均精度

2.网络

该网络主要由两个部分组成:3D Proposal Network(3D区域候选网络)和Region-based Fusion Network(区域融合网络)

采用 3d 点云和图像的多视图表示作为输 入。它首先从鸟瞰图中生成三维物体提案,然后通过基 于区域的表示深度融合多视图特征。融合特征用于类别分类和面向三维盒子回归

分别提取激光雷达点云的鸟瞰图特征、前视图特征以及相机图像特征,对点云的俯视图进行候选区域生成,然后分别与点云的俯视图、前视图以及相机图像进行融合,通过ROI pooling将不同的特征图大小整合成相同的大小,接着送入深度融合网络中。

2.1点云数据处理

图2

鸟瞰图

鸟瞰图的表示是由高度、亮度 /灰度编码的。我们将投影的点云离散成一个 分辨率为 0.1 m 的二维网格,对于每个单元,高度特征被计 算为单元中点的最大高度。为了编码更详细的高度信息,点 云被平均分成 m 片。为每个片计算一个高度映射,因此我 们得到 m 高度映射。强度特征是在每个单元格中具有最大高度的点的反射值。点云密度指示每个单元格中的点数。为了规范化特性,将其计算为 min (1:0; log (n + 1)) ,其中 n是单元格中的点数。请注意,亮度/灰度特征是针对整个点云计算的,而高度特征是针对 m 片计算的,因此 鸟瞰图总体上被编码为(m + 2)通道特征。

 前视图

前视图表示为鸟瞰图表示提供了补充信息。由于激光雷达点云非常稀疏,将其投影到图像平面会得到一个 稀疏的二维点图。相反,将其投影到圆柱面上,生成一个密集的前视图地图,如[16]所示。给定一个三维点 = (x; y; z) ,它在前视图中的坐标 pfv = (r; c)可以使用分别是激光束的水平分辨率和垂直分辨率。编码的前视图具有三个通道的特征,即高度,距离和亮度/ 灰度,如图 2 所示。

p_fv=(r,c):
 c = [atan2(y,x)/∆θ]
 r = [atan2(z,√(x2+y2 )/∆∅)]

其中∆θ和∆φ分别是激光束的水平和垂直分辨率。使用三通道特征(高度,距离和强度)对前视图地图进行编码,如图2所示

2.2 3D区域候选网络

 受区域提案网络(RPN)的启发,我们首先设计了一个生成三维物体提案的网络。 RPN 已经成为最先进的二维物体检测器的关键组件。我们使用鸟瞰图作为输入.在三维物体检测中,鸟瞰图比前视图/图像平面有几个优点。首先,物体 在鸟瞰图中保持物理尺寸,因此尺寸方差很小,而在前视图 /图像平面中则不是这样。其次,鸟瞰图中的物体占据了不 同的空间,从而避免了遮挡问题。第三,在道路场景中,由 于物体通常位于地面,垂直位置方差较小,因此鸟瞰定位对 于获得精确的三维边界盒更为重要。因此,使用显式的鸟瞰 图作为输入,使得三维位置预测更加可行。

2.3 区域融合网络

在输入到区域融合网络前需要将每个视图的特征图大小通过ROI pooling调整到同一大小。

 多视图 ROI 池 由于来自不同视图/模式的特征通常具有不 同的分辨率,我们对每个视图使用 ROI 池化[9]来获得相同 长度的特征向量。鉴于生成的 3d 建议,我们可以将它们投 影到 3d 空间中的任何视图。在我们的例子中,我们将它们 投影到三个视图中,即鸟瞰视图(BV)、前视图(FV)和图像平 面(RGB)。给定一个 3d 方案 p3D,通过以下方式获得 每个视图的投资回报率:

其中T3D→v表示从LIDAR坐标系到鸟瞰图,正视图和像平面的转换函数。给定每个视图前端网络的输入特征映射x,我们通过ROI池获得固定长度的特征f_v:
 

常见融合大都为前融合与后融合、

前融合:

{H_l,l = 1,···,l}是特征变换函数,而⊕是一个连接操作(如拼接、求和)

后融合:

MV3D的深度融合受到《Deeply-fused nets》的启发,深度融合不仅对最终特征表示进行特征融合,而且对中间特征表示进行特征融合。该论文中表示深度融合网络在前向和后向传播过程的计算复杂度几乎等于所有基础网络的复杂度,元素添加成本可以忽略不计,因此不会引入额外的参数,也不会增加计算复杂度。

对于深度融合的join操作,使用了element-wise均值,因为它与drop-path训练[15]相结合时更加灵活

深度融合网络的优点:

​ (1)结合多尺度表示的能力:因为深度融合网络可以由许多不同的基础网络组成,不同网络的感受野可以不同。

​ (2)改善信息流:因为融合网络中不同块的大小可能不同,这意味着更深的基础网络的中间层到输出层变得更短。从输入到中间层和从中间层到输出的信息流都得到了改善,有利于训练深度网络。

在MV3D的深度融合网络中使用了drop-path和auxiliary losses来进行网络正则化

对于每次迭代,随机选择以50%的概率执行全局drop-path或局部drop-path。

drop-path 通过随机丢弃连接层的操作数来阻止并行路径的协同适应。如果不加以阻止,则容易出现过度拟合。

​ 局部丢弃:连接以固定概率丢弃每个输入,但我们确保至少有一个存活。

​ 全局丢弃:整个网络选择一条路径。我们将此路径限制为单列,从而将各个列提升为独立的强预测因子。

同时信息可能需要适当的重新调整,使用element-wise means,仅仅计算每个连接的激活输入的均值。也就是MV3D中深度融合网络中的M。

​ MV3D的深度融合网络中还添加了auxiliary losses(辅助损失),它与主网络具有相同的层数,并且相应层共享权重

2.4 网络结构细节

通道数减少到原始VGG-16的一半;
在输入到候选区域网络前对特征图进行2x billinear upsampling layer;
删除原始VGG-16的第4个池化层;
在BV/FV/RGB送入ROI pooling之前添加4X/4X/2X上采样层;
在多视图融合网络中,除了原始的 fc6 和 fc7 层之外,我们还添加了一个额外的全连接层 fc8

3.结论

MV3D提出了一种用于道路场景中3D对象检测的多视图传感器融合模型。同时利用LIDAR点云和图像。通过生成3D建议,并将它们投射到多个视图中进行特征提取,从而对齐不同的模式。提出了一种基于区域的融合网络,对多视图信息进行深度融合,实现定向3D框回归。在KITTI基准[9]的3D定位和3D检测任务上,MV3D方法明显优于现有的基于激光雷达和基于图像的方法。与最新的2D检测方法相比,从3D检测获得的2D框结果也显示出竞争优势

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值