3D Bounding Boxes for Road Vehicles

最新推荐文章于 2023-03-18 14:48:13 发布

WangKingJ

最新推荐文章于 2023-03-18 14:48:13 发布

阅读量1.3k

点赞数 1

分类专栏： ML 计算机视觉

本文链接：https://blog.csdn.net/wangkingj/article/details/103650746

版权

计算机视觉同时被 2 个专栏收录

30 篇文章 4 订阅

订阅专栏

23 篇文章 3 订阅

订阅专栏

3D Bounding Boxes for Road Vehicles:A One-Stage, Localization Prioritized Approach Using Single Monocular Images

Abstract

理解周围物体的三维语义是至关重要的，也是自动驾驶安全角度的一个具有挑战性的需求。我们提出了一种定位优先的方法来有效地定位物体在三维空间中的位置并围绕它计算出一个完整的3D框。我们的方法需要一个单一的图像，并以端到端的方式执行二维和三维检测。从单目图像中估计物体的深度通常不如姿态和尺寸。因此，我们通过有效地定位三维边界盒(CBF)底面中心到图像的投影来解决这个问题。在后期处理阶段，我们使用基于查找表的方法在3D空间中重新映射CBF。这个阶段是一个单一的时间设置和足够简单的部署在固定的地图社区，在那里我们可以存储关于地面的完整知识。使用一组共享的特性以多任务方式预测对象的尺寸和姿态。实验表明，该方法能够产生平滑的环绕物体轨迹，并在三维定位方面优于现有的基于图像的方法。

1 Introduction

场景理解是关键的安全要求之一，使一个自主系统学习和适应的基础上，他与环境的互动。工作就像【16】讨论环绕分析的整体信号到语义。【15】和【17】提供了完整的基于视觉的环绕理解系统。从这些作品中获得灵感，我们的工作提出了一个完整的基于视觉的解决方案来估计周围物体的位置、尺寸和姿态。完整的环绕车辆三维知识有助于自主系统的有效路径规划和跟踪。三维目标检测涉及9个自由度，包括姿态、尺寸和位置。在正常的驾驶情况下，我们假设没有滚动和俯仰的物体和视觉偏航波动在0◦，±90◦和180◦。此外，道路上的物体(如汽车)的尺寸高度不变，峰度也很高。有效地定位物体在三维世界中的位置对于良好的三维物体检测变得越来越重要。
在这里插入图片描述
在三维语义学习领域，大部分工作使用昂贵的激光雷达系统来学习目标建议，如【2】和【20】。在这项工作中，我们只使用一个单一相机的输入，并估计周围物体的3D位置。我们首先以端到端方式估计底端面中心(CBF)在图像上的投影以及其他参数，从而解决目标定位问题。在目标检测领域的最新进展可以大致分为两阶段和单阶段架构。这两个阶段的体系结构涉及到一个池化阶段，该阶段接受来自提案网络的输入，用于具有对象概率的所有区域。检测体系结构进一步扩展，如在【5】的perfrom关键点和实例掩码预测。另一方面，像【8，9，13】这样的架构提出了一种机制，在单一阶段学习图像中每个给定区域的类的后验分布。我们从这些方法的成功中获得灵感并考虑2D作为一个关键点的底面中心的投影。在驾驶场景中，当目标在车辆的一定范围内时，这个关键点的位置会有很大的波动。因此，我们的重点是开发一个有效的估计方案，优先定位这个关键点，以解决网络中的其他学习任务。
所有的目标检测体系结构都使用不同比例和尺寸的锚点，这些锚点在不同的层次上对整个特征图进行回归。如果锚点与ground-truth位置重叠超过阈值，则标记为正。正例的锚点回归与对应的ground-truth匹配。同样的回归方法也可以用于定位三维边界盒中心在图像上的投影，在我们的工作中我们称之为CBF。然而，我们没有为CBF创建一个单独的回归头，而是改变了anchor标记方案来优先考虑它的学习。该方案减少了正例样本的总数，可能导致严重的类不平衡。为了避免这种情况，我们使用了Focal loss 【8】，它有助于完美地调节正负两个样本之间的损耗。实验结果表明，anchor标记方案的改变对二维检测任务没有影响。我们的修改隐式地帮助在特征图上分类那些靠近中心投影的位置。因此，网络根据关键点的位置来完成所有的学习任务，在我们的例子中，关键点的位置就是底面中心在图像平面上的投影。
我们的主要贡献提出了可以概括如下:

我们的3d边界框以一种端到端的方式学习和提出一个完整的基于图像的解决方案。
我们修改单级检测架构优先学习基于关键点的位置。
我们提出了一个代替传统方法的方法，它是对二维边界框的底部边缘执行IPM，以在真实世界中找到相应的位置坐标。
提出了一种基于查找表的方法reprojecting the 3D空间的中心。

2 Related Research

我们重点介绍了应用不同传感器模式进行自主驾驶三维目标检测的一些代表性工作。大多数方法使用深度传感器，如激光雷达或立体声装置。Chen等人【2】从激光雷达点云的鸟瞰图中学习提案，并使用图像中相应的区域提案和激光雷达前视图生成池
来自激光雷达和相机模式的特征图。经过一系列的融合操作后，进行最终的3D box回归和多类分类。在【20】中，他们将完整的激光雷达点云分布到体素中，并在体素化的特征图上进行学习。每个体素的特性捕获该体素内部所有点的局部和全局语义。在【11】中，他们在一个图像上运行一个2D对象探测器，并寻找与每个对象的截锥体对应的激光雷达点。一次，在约束激光雷达空间中，按照【12】中的方法对三维点进行实例分割。所有这些技术要么在深度空间中学习建议，要么用于后期分析。另一方面，我们的方法只使用单一的图像，并使用一个非常低廉的解决方案，可以应用近距离场景感知。我们的方法展示了反向透视映射(IPM)和基于深度网络的预测之间的完美结合。因此，在一个固定的地图环境中，有完整的地平面信息，我们的解决方案的性能表现在不变的范围内的车辆自身。
以往利用图像进行三维目标检测的工作，如【1】，要么依靠图像中的3D anchor box，要么利用来自分割图、上下文池化和来自ground truth 数据的位置先验等复杂特征的线索进行回归。【10】从裁剪的图像特征中学习尺寸和姿态，并使用投影约束来计算来自当前的转换。他们还分析了如何在维度下回归3D box的中心，它对于学习准确的3D box非常敏感。这些方法要么计算复杂的特征来回归三维空间中的盒子，要么不是端到端的学习。我们的工作展示了一个简单而有效的方法来计算定位和一个后期处理阶段，以适应一个3D框的对象。我们利用像【7】这样的工作，为3D对象检测提供了一个端到端的学习平台。

3 Monocular 3D Localization

3.1 Problem Formulation

对于单一的相机图像，我们必须估计出视野中所有物体的位置、尺寸和姿态。3D box底面的中心位于地平面上。利用这一约束条件，设计了一种监督学习方案，该方案能够实现中心在图像平面上的投影定位。然后通过在地面上拟合一定数量的平面，利用地面信息，找出具有the least inverse re-projection error。注意，此技术仅适用于地面上的点。因此，它不同于其他一些作品，使用中心作为对角线的交集的3D box。我们还扩展了我们的单阶段架构来预测尺寸和姿态，以适应一个完整的3D盒子。

3.2 CBF Based Region Proposal

原始的基于锚点的区域提议方案以缩小后的特征图作为输入，在特征图上的每个位置，我们提出不同尺寸和比例的锚点。假设每个尺度上有N个锚点，只有那些与任何ground truth对象相交大于阈值的锚点被标记为正。然而，我们稍微偏离了这个策略。我们使用相机投影矩阵将物体的所有三维中心投射到图像上。投影的位置是在每个缩小的特征图上进行计算，它将用于监督。由于计算的位置不是整数，我们在每个feature map中标记与该ground truth位置对应的所有最近的整数邻居。Figure 2显示了选择的正锚的中心(红色)和CBF投影的位置(黄色)。我们在缩小了 $\frac{1}{2^i}$ 特征图上进行回归，, $_i$ = 3,4,5,6,7对原始图像的大小。Figure 3显示了如何在任意的特征图上确定positive anchors。如果中心投影的x和y坐标都需要离散化，我们在特征图中选择离它最近的4个邻居 $i . e (x - 1, y - 1), (x + 1, y + 1), (x - 1, y + 1), (x + 1, y - 1)$ . 对于x或y坐标为整数的情况，我们通过添加 $((x, y + 1), (x, y - 1)) o r ((x - 1, y), (x + 1, y))$ 来选择6个邻居。

在这里插入图片描述

3.3 Regression Parameters

如前所述，我们的区域建议架构仅将特征图中围绕CBF的锚点标记为正。简单地将这些锚点归为正不足以达到准确预测三维平移的目的。因此，我们将一个CBF回归头附加到类主体上，如Figure 4所示。CBF头将有助于解决特征图中CBF位置离散化所带来的问题。我们使用相同的方法在【14】回归 $Δcbf_x$ 和 $Δcbf_y$ ，除此之外，，我们回归 $Δx_c$ ， $Δy_c$ ， $Δ w$ ， $Δ l$ ，用于估计二维边界框的中心和尺寸。随着学习的进展，分类头只会在特征图的CBF位置附近升温。通过定位和分类体学习到的共享特征池也可以用来学习所有的参数，来估计一个准确的3D边界框。因此，我们在每个预测块中附加尺寸和偏航的预测头，如Figure 4所示。对于分类头，我们使用了focal loss【8】，它在处理正样本和负样本之间的类不平衡方面非常出色。处理这种不平衡是必要的，因为我们基于位置的锚标记方法减少了每个对象的正锚的数量。使用 $S m o o t h - L 1$ 损失来学习CBF和定位头的回归目标，如【4】。回归损失只在正锚的情况下计算。因为我们的新的区域建议的方法，我们降低positive 的IOU阈值从0.5，(在大多数情况下使用)到0.2。当反向传播时，IOU不为0且小于0.2的锚被忽略。因此，在我们的例子中，消极的例子也会包括那些与感兴趣的对象有很大重叠的锚。维度头估计数据集的平均维度的偏差。这使得学习更容易，因为在训练开始时梯度不会有很大的波动。KITTI数据集中汽车的平均尺寸(l、w、h)为(3.88、1.63、1.52)米。我们使用multibin loss预测摄像机使用2 bins用于分类的偏航，(−π,0)和(0,π)。相机偏航可定义为环绕物体的相机轴与来自当前相机的光线形成的角度。所有预测的总损失函数可以写成:
在这里插入图片描述
我们用不同的权重同时学习不同的任务。根据我们的观察，在开始阶段使用大的权重会分散训练。因此，在开始的10个 epochs，我们对所有的任务使用相同的权重，最终把 $α ， β$ 和γ ，分别为8，8和2。损失函数表达式如下:
在这里插入图片描述

3.4 IPM Based Projection

该网络能够准确预测图像中心投影(CBF)的位置。现在，我们提出了一种简单的方法，将每个CBF预测映射到相应的3D位置。3D框的中心位于地平面上，这使得像反向透视映射这样的方法在我们的案例中可以应用。然而，我们并没有学习从地平面到像图像平面的转换，而是使用了一种基于查询表的方法，这种方法很容易扩展到多个转换。多个变换不会限制在一个地平面上行驶的不同距离的车辆。此外，CBF的完整重投影管道是一次性设置的。我们使用地面激光雷达点在KITTI 中为每个场景开始这一次设置。RANSAC用于将多个平面拟合到给定的一组激光点上。在一个固定的二维网格上，每个平面方程将提供一个不同的深度值。二维网格包括X从0到100米范围内的点和Y 的-40米至40米范围内的点，分辨率为0.01米。然后，每个3D位置被投影到图像中，并存储在每个平面的单独的KD-Tree中。同时，我们为图像上的每个2D位置存储相应的3D位置。对于每个CBF预测，我们查询所有的KD-Trees，以找到可能的最佳解决方案。在相应的查找表中查找最近邻居的三维坐标，并将其作为3D box的中心。完整的设置总结如下:
在这里插入图片描述

3.5 Implementation

完整的架构流程如Figure 4所示。我们使用ResNet body【6】作为基本网络，使用【7】中提出的特征金字塔构造多尺度特征图。如图所示，金字塔的每一低层都是通过对上层进行双线性向上采样，并从basenet体中添加相应块的输出来形成的。每层的金字塔用于学习不同尺度的对象。因此，我们在金字塔的每一层上选择了不同尺寸的anchor box，纵横比的数量必须保持不变。我们从5层中提取feature maps，对应的每一层使用的anchors boxes的大小分别为 $（ 32 \times 32 ， 64 \times 64 ， 128 \times 128 ， 256 \times 256 ， 512 \times 512 ）$ 。在每一层，anchor box进一步改变为以下纵横比(1，1 /2，2/1)。ResNet主体是用预先训练的imagenet权值初始化的。
我们使用KITTI的三维对象检测数据集【3】进行训练。训练数据集的输入分辨率为1242×375，通过改变最大尺寸为1024，保持长宽比不变来调整其大小。由于使用特征金字塔网络可以有效地学习不同的对象尺度，因此在整个训练过程中我们保持输入批大小不变。KITTI训练标签包含每个标记对象的转换，这些转换将使用激光雷达转换到摄像机的图像和经过校正的图像投影矩阵。我们用零填充图像，以考虑CBF位于图像平面之外的情况。我们按照【18】中提出的方法，对KITTI训练数据进行分割，确保训练集和验证集不使用相同的视频序列。我们使用的恒定学习率为0.001，动量为0.9。使用0.0001的权重衰减来调整每个训练步骤的权重。在推理过程中，该网络将CBF投影周围的区域划分为正。我们使用分类分数对框预测进行排序，对2D边界框执行非极大值抑制(Non-Maximum Suppression, NMS)。我们在评估时使用0.3的NMS阈值和0.5的分类阈值。完整的实现可以总结为以下算法。
在这里插入图片描述

4 Experimental Evaluation

我们使用KITTI 3D对象检测数据集执行评估。我们的实验只集中在KITTI的车辆类别上。Figure 9显示了我们在测试集中对KITTI汽车的一些定性结果。

4.1 Comparison with Direct CBF Regression

在本节中，我们将我们的方法与保留原始的基于IOU的区域建议方法并添加用于CBF预测的回归头的方法进行了比较。与基于IOU的正锚标记方法相比，本文提出的正锚标记方法具有更好的效果。倒角距离的一个变量被用来评估和比较这两种方法。对于图像中每个预测的CBF投影，我们找到与它对应的最接近的ground truth。我们还验证了最近的邻居应该是位于通过系数1.5的扩展预测包围框形成的区域内。
Figure 5显示了我们提出的方法在CBF像素级估计方面的改进。Figure 6显示了从KITTI序列中选取的一些轨迹。我们可以看到IPM的地平面假设是如何带来一些抖动的。接下来，我们还展示了我们的学习方案是如何能够产生非常相似的轨迹后，将IPM应用到地面轨迹。Figure 8显示了一些可视化示例，其中我们提出的更改有助于改进CBF预测。
在这里插入图片描述

4.2 Effect of Range on Localization

在本节中，我们将分析当周边车辆与当前车辆的距离增加时，3D定位性能如何开始下降。我们只分析距离当前车辆50米范围内的物体，并在距离10米的范围内展示我们的表现。Table 1和 Table 2显示了在图像中心的预测位置上应用IPM和在ground truth 3D location上应用/不应用IPM后的3D定位误差。
在这里插入图片描述

4.3 Effect on the Detection Performance

与原来的anchor设计相比，提出的改变减少了positive anchor的数量。此外，positive anchor与物体的重叠较少，因为CBF大部分时间都在二维框的底边附近。
在这里插入图片描述

在KITTI上的验证结果表明，我们的新设计不会妨碍2D定位。Figure 7为相同情况下的ROC曲线。
因为我们的主要动机是分析3D边界框的质量，所以我们忽略了那些从我们的训练集中被严重遮挡和截断的样本。Table 3为汽车检测的KITTI测试集的结果。
在这里插入图片描述
在对图像进行填充并在训练中包含所有截断的情况之后，可以获得对MAP的进一步改进。

4.4 3D Bounding Box Evaluation

为了评估预测的三维边界盒的准确性，我们计算了3D交并比(IOU)，并对来自当前车辆的环绕对象进行了对比分析。对于在【0-10】m范围内的对象，一个良好的拟合三维边界框为近距离感知活动提供了良好的场景理解。我们将我们的方法与【10】进行了比较，后者也提供了一个完整的基于图像的3D box估计解决方案。在【10】中，首先在图像上运行一个2D检测器来获得所有的检测，而与此相反，我们的方法是一步完成检测、3D定位、定位和尺寸估计的全部任务。因此，我们的评估不会因管道中任何组件的性能而改变。此外，我们评估了KITTI汽车的Average Orientation Similarity，如Table 4所示。AOS评分计算预测的偏航与地面真实偏航的余弦差值，并在召回步骤中取其平均值。在我们的分析中，我们模拟了KITTI的3D边界重叠策略来计算3D IOU。不同范围内的3D召回取决于我们在训练架构时包含的训练样本。另一方面，【10】是计算平均三维IOU后，从2D检测器获得裁剪区域。因此，即使目前从其他方法中的较低的召回率，我们仍然能够超越或匹配所有距离范围内的3D IOU，如Table 5所示。我们对不同距离范围的方法的回归如Table 6所示。
在这里插入图片描述

在【0–10）范围内的周边车辆的3D IOU的巨大收益应该归功于我们的定位优先方法。在Table 7中，我们将Table 2中提到的相同的定位错误与选择的the state of the art的工作在3D IOU比较。当周边车辆与当前车辆的距离增加时，单一地平面的假设抑制了我们的方法。
在这里插入图片描述

5 Conclusions

在本文中,我们提出一个完整的基于相机的在3D空间中定位周围物体的解决方案。我们的方法比直接回归更有助于估计投影中心。对于固定map environments，通过学习一种与数据相关的方法，为平面上的所有点选择最佳的K个拟合平面，解决了IPM投影中的平面假设。这是一次设置和平面数量可以通过调优而不改变推断管道。在未来，这个学习模块可以在学习对象操作和跟踪预测方面进行扩展。

WangKingJ

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
3D Bounding Boxes for Road Vehicles

3D Bounding Boxes for Road Vehicles:A One-Stage, Localization Prioritized Approach Using Single Monocular ImagesAbstract 理解周围物体的三维语义是至关重要的，也是自动驾驶安全角度的一个具有挑战性的需求。我们提出了一种定位优先的方法来有效地定位物体在三维空间中的位置并围绕它...
复制链接

扫一扫