【文章翻译】pointrcnn实验部分翻译

最新推荐文章于 2023-09-06 19:30:10 发布

键盘敲坏了

最新推荐文章于 2023-09-06 19:30:10 发布

阅读量1.3k

点赞数 1

文章标签：自动驾驶深度学习机器学习

本文链接：https://blog.csdn.net/qq_42305950/article/details/105253883

版权

1 实现细节

1.1 网络结构

对于训练集中的每个3D点云场景，我们从每个场景中选取16384个点作为输入。对于点数小于16384的场景，我们随机重复这些点数，得到16384个点。对于第一阶段的子网络，我们遵循pointnet++的网络结构，其中四个具有多尺度分组的集抽象层被用来将点分成大小为4096、1024、256、64的组。然后利用四个特征提取层，得到每个点的特征向量，进行分割和生成建议。
对于box提案优化子网络，我们从pool后的候选区域采样512个点作为该子网络的输入。使用三个单一尺度group（group size为128，32，1）的set abstraction层生成单个特征向量，用于对象置信度分类和候选框位置优化。

1.2 训练过程

在这里，我们报告了汽车类别的训练细节，因为它在KITTI数据集中有大部分的样本，行人和骑自行车的人的超参数可以从发布的代码中找到。
对于stage-1子网络，将三维ground truth box内的所有点作为前景点，其他点作为背景点。在训练过程中，我们忽略了物体边界附近的背景点，通过在物体每边增加0.2m的3D ground-truth boxes来进行稳健分割，因为3D ground-truth boxes可能会有小的变化。对于bin based提案框生成，超参数设置为：搜索范围S=3m，bin的尺寸δ=0.5m，方向的bin数量n=12。
为了训练阶段2的子网络，我们用小变化来随机增强3d提案框，以增加建议的差异。对于box classification分支的训练，如果提案的ground truth box的最大3D IoU大于0.6，则被认为是正样本，如果提案的3D IoU小于0.45，则被认为是负样本。我们使用3D IoU 0.55作为box regression分支训练提案的最小阈值。对于bin based提案优化，搜索范围S=1.5m，定位bin尺寸δ=0.5m，方向的bin尺寸为10度，点云pooling的context长度η=1m。
PointRCNN的两个阶段子网络分别训练。阶段1的子网络训练200个epoch，批大小为16，学习率为0.002；阶段2的子网络训练50个epoch，批大小为256，学习率为0.002。在训练中，我们增加了随机翻转的数据，使用从[0.95,1.05]中采样的比例因子进行缩放，并在[- 10,10]度之间绕Y轴旋转。受[40 Second: Sparsely embedded convolutional detection]的启发，为了模拟不同环境下的物体，我们还从其他场景中随机选择不重叠的框，将几个新的ground-truth框和它们的内点放在当前训练场景的相同位置，这中增强方式在接下来的章节中被称为GT-AUG。

2 KITTI上的3d检测表现

KITTI的3D对象检测基准包含7481个训练样本和7518个测试样本(测试拆分)。我们按照[4 MV3D]中提到的常用的训练val split将训练样本分为train split (3712样本)和val split(3769样本)。我们将PointRCNN与最先进的val分割和KITTI数据集测试分割的3D对象检测方法进行了比较。所有的模型都在训练集中进行了训练，并在测试集与验证集中进行了评估。

2.1 三维物体检测评估

我们在KITTI测试服务器的3D检测基准上对我们的方法进行了评估，结果如表1所示。对于汽车和自行车的3D检测，我们的方法在这三个方面都有显著的优势，并且在提交时，我们的方法在KITTI测试榜上排名第一。尽管以前的方法大多同时使用RGB图像和点云作为输入，我们的方法只使用点云作为输入，而获得了更好的性能和更高效的体系结构。在行人检测方面，与以往仅使用lidar的方法相比，我们的方法取得了更好的或可比较的结果。但是，它的性能略低于具有多个传感器的方法。我们认为这是由于我们的方法只使用稀疏点云作为输入，而行人的尺寸较小，图像比点云可以捕捉更多的行人细节，有助于三维检测。

在这里插入图片描述
对于最重要的车类，我们还报告了val split上的3D检测结果的性能，如表2所示。我们的方法优于以往的sota方法在验证集上。特别是在难度较大的情况下，我们的方法比之前的最佳AP提高了8.28%，证明了我们提出的PointRCNN的有效性。
在这里插入图片描述

2.2 3D候选框提议的评价

通过计算具有不同数量提案的三维边界框的召回率和三维IoU阈值，评价了自底向上提案生成网络的性能。如表3所示，我们的方法(不含GT-AUG)的召回率明显高于之前的方法。只有50的建议时，我们的方法在中等难度的汽车类获得96.01%召回率（IOU thresh=0.5）中等难度的汽车类，相同数量提案下优于91%的AVOD[14]。请注意,后一种方法使用2d图像和点云提议代，而我们只使用点云作为输入。当使用300个提案时，我们的方法在IoU阈值0.5时进一步达到98.21%的召回率。由于我们的方法在IoU thresh- old 0.5已经获得了较高的召回率，因此增加建议的数量是没有意义的。相比之下，如表3所示，我们报告了IoU阈值0.7的3D包围框的召回情况，以供参考。通过300个提案，我们的方法在IoU阈值0.7时达到了82.29%的召回率。虽然提案的召回与最终的3D对象检测性能关系不大[11,8]，但突出的召回仍然表明了我们的自底向上提案生成网络的鲁棒性和准确性。
在这里插入图片描述

3 消融实验Ablation Study

在本节中，我们进行了广泛的消融实验来分析PointRCNN不同成分的有效性。所有的实验都在没有GT-AUG的火车上进行训练，并在有class1车的val split上进行评估。

3.1 优化子网络的不同输入

如第3.3节所述，优化子网络的输入由标准转换的坐标和每个pooled点的concat特征组成。
我们分析了每一种特征对优化子网络的影响，即删除一个特征而保持所有其他部分不变。为了公平比较，所有实验都使用相同的固定阶段1子网络。结果如表4所示。在没有规范转换的情况下，细化子网络的性能显著下降，这表明将细化子网络转换为规范坐标系极大地消除了许多旋转和位置变化，提高了第二阶段特征学习的效率。我们还发现，去除从点云中学习到的阶段1特征f§和生成建议，在中等难度的情况下减少了2.71%的mAP，这说明了其在第一阶段语义分割中的优势。表4还显示了点的深度信息的d§和分割掩模m§对最终的性能贡献不大，因为相机深度完成了消除正则变换的距离信息，而分割掩模表示了合并区域中的前景点。
在这里插入图片描述

3.2 Context-aware点云池化

在3.2节，我们介绍了一种扩大提案框bi的方法，通过margin η 来加宽bbox，可以得到更多点的上下文信息来进行提案的置信度预测和位置回归。表5显示的是不同的上下文宽度η来pool的效果。η= 1.0 m时最佳性能。我们注意到，当没有上下文信息被汇集时，准确性，特别是那些困难的，会显著下降。困难的情况下，由于对象可能被遮挡或远离传感器，建议框中的点往往较少，这需要更多的上下文信息来进行分类和建议细化。如表5所示,太大的η也会导致性能下降,因为当前的提议框可能包括其他目标的前景点的干扰。
在这里插入图片描述

3.3 3d bbox回归的loss

在3.1节中，我们提出了基于bin的3D框定位损失的提案框生成。在本部分中,我们评估了一阶段子网络使用不同类型的3d框回归损失的表现，其中包括residual-based loss(RB-loss)[43]，residual-cos-based loss(RCB-loss)，角损失(CN-loss) [4、14]，partial-bin-based loss(PBB-loss)[25]，以及我们的bin-based loss(BB-loss)。这里residual-cos-based损失通过residual- based loss编码了∆θ(cos(∆θ),sin(∆θ))，来消除歧义的角度回归。
最终，一阶段100个提案框的召回率(IoU阈值0.5和0.7)被用作评估指标，如图5所示。该图揭示了我们的基于bin的3D边界框回归损失的有效性。具体来说，第1阶段的子网络与我们的full-bin-based损失函数实现更高的召回率和收敛速度远远超过所有其他损失函数，这得益于利用先验知识对目标进行优化，尤其是定位。partial-bin-based损失实现了类似的，但收敛速度比我们慢得多。与其他损失函数相比，full-bin-based和partial-bin-based具有更高的召回率，尤其是在IoU阈值0.7时。改进后的residual-cos-based loss也比residual-based具有更好的召回率。
在这里插入图片描述

4 结论

提出了一种新的三维目标检测算法PointRCNN，用于从原始点云中检测三维目标。提出的第一阶段网络采用自底向上的方式从点云直接生成三维提案，其召回率明显高于以往的提案生成方法。第二阶段网络通过结合语义特征和局部空间特征，在规范坐标上细化建议。此外，新提出的基于bin的损失证明了其在三维边界盒回归中的有效性。实验表明，PointRCNN在具有挑战性的KITTI数据集三维检测基准上，以显著的优势超越了以往最先进的检测方法。

键盘敲坏了

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
【文章翻译】pointrcnn实验部分翻译

1 实现细节1.1 网络结构对于训练集中的每个3D点云场景，我们从每个场景中选取16384个点作为输入。对于点数小于16384的场景，我们随机重复这些点数，得到16384个点。对于第一阶段的子网络，我们遵循pointnet++的网络结构，其中四个具有多尺度分组的集抽象层被用来将点分成大小为4096、1024、256、64的组。然后利用四个特征提取层，得到每个点的特征向量，进行分割和生成建议。...
复制链接

扫一扫