[论文翻译]Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

最新推荐文章于 2024-11-12 16:43:48 发布

Javier.Lin_HUST

最新推荐文章于 2024-11-12 16:43:48 发布

阅读量665

点赞数 1

文章标签：人工智能计算机视觉目标检测 3d 深度学习

本文链接：https://blog.csdn.net/qq_40279050/article/details/132207854

版权

论文翻译：

Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

摘要：

当前仅基于LiDAR的三维检测方法不可避免地会受到点云稀疏性的影响。许多多模态方法被提出来缓解这一问题，而图像和点云的不同表示方式使得它们难以融合，导致性能次优。在本文中，我们提出了一种新的多模态框架SFD (Sparse Fuse Dense)，它利用深度补全生成的伪点云来解决上述问题。不同于以往的工作，我们提出了一种新的RoI融合策略3D - GAF ( 3D网格注意力融合)来更充分地利用来自不同类型点云的信息。具体来说，3D - GAF以网格注意力的方式融合了一对点云的3D RoI特征，更细粒度和更精确。此外，我们提出了一种SynAugment ( Synchronized Augment )，使我们的多模态框架能够利用所有针对LiDAR - only方法定制的数据增强方法。最后，我们为伪点云定制了一个高效的特征提取器CPConv (彩色点卷积)。它可以同时探索伪点云的2D图像特征和3D几何特征。我们的方法在KITTI汽车3D目标检测排行榜上排名最高，证明了我们的SFD的有效性。

1、引言

近年来，深度学习和自动驾驶的兴起带动了3D检测的快速发展。目前的三维检测方法主要基于LiDAR点云[ 1、3、6、22、23、29、30、42、43、50]，而点云的稀疏性极大地限制了它们的性能。稀疏的LiDAR点云在远处和遮挡区域提供的信息较差，难以生成精确的三维包围盒。许多多模态方法被提出来解决这一问题。MV3D [ 2 ]在第二阶段引入RoI融合策略对图像和点云进行特征融合。AVOD [ 15 ]提出从图像特征图和BEV特征图中融合全分辨率特征作物以获得较高的召回率。MMF [ 20 ]利用2D检测、地面估计和深度补全来辅助3D检测。在MMF中，伪点云用于主干特征融合，深度补全特征图用于RoI特征融合。尽管他们取得了巨大成功，但也存在两个不足之处。

粗糙的融合策略 在融合RoI特征时，如图2 ( a )所示，之前的RoI融合方法将从BEV LiDAR特征图裁剪的2D LiDAR RoI特征和从FOV影像特征图裁剪的2D影像RoI特征串联起来。我们注意到这种RoI融合策略是粗略的。首先，2D图像RoI特征通常与来自其他物体或背景的特征混合在一起，这会混淆模型。其次，RoI融合策略忽略了2D图像和3D点云中的物体部分对应关系。本文提出了一种更细粒度的RoI融合策略3D - GAF ( 3D网格注意力融合)，融合3D RoI特征代替2D RoI特征，如图2 ( b )所示。在3.3节中，我们详细阐述了3D - GAF相对于以往RoI融合方法的3个优势。

数据增强不足 这一缺点在大多数多模态方法中都存在。由于2D图像数据无法像3D LiDAR数据那样进行操作，许多数据增强方法难以在多模态方法中部署。这是多模态方法通常不如单模态方法的一个重要原因[ 47 ]。为此，我们介绍我们的SynAugment (同步增强)。我们观察到，将2D图像转换为3D伪点云后，图像和原始点云的表示是统一的，这表明我们可以像原始点云一样操作图像。然而，这还远远不够。一些复杂的数据增强方法，如gt采样[ 41 ]和局部旋转[ 49 ]，可能会导致FOV（field of view）上的遮挡。这是一个不可忽视的问题，因为图像特征需要在FOV上提取。现在，是时候跳出思维定式了。当二维图像转换为三维伪点云后，为什么不直接在三维空间中提取图像特征呢?这样，我们就不再需要考虑FOV遮挡问题。

尽管如此，在三维空间中提取伪点云的特征并非易事。因此，我们提出了一个CPConv (彩色点卷积)，它在图像域上搜索伪点的邻居。它使我们能够高效地提取伪点云的图像特征和几何特征。考虑到FOV遮挡问题，我们无法将所有伪点投影到当前帧的图像空间进行近邻搜索。在这里，我们提出了一种RoI感知的邻域搜索，它将每个3D RoI中的伪点投影到它们的原始图像空间，如图3所示。因此，在FOV上相互遮挡的伪点在执行邻居搜索时不会成为邻居。换句话说，它们的特征不会相互干扰。

归纳起来，我们的贡献如下：

1、提出了一种新的RoI特征融合策略3D - GAF，以更细粒度地融合原始点云和伪点云的RoI特征；

2、提出了一种数据增强方法SynAugment，以解决多模态方法存在的数据增强不足问题；

3、定制了一种高效的伪点云特征提取器CPConv。它可以同时提取2D图像特征和3D几何特征。

4、我们通过大量的实验证明了我们方法的有效性。特别地，我们在KITTI汽车三维目标检测排行榜上排名第1。

2、相关工作

利用Single - Modal数据进行三维检测。目前的三维检测方法主要基于LiDAR数据。SECOND [ 41 ]提出了一种稀疏卷积操作来加速3D卷积。SA-SSD [ 10 ]利用一个辅助网络来引导特征。PV-RCNN [ 29 ]利用基于体素的方法和基于点的方法的优点，得到更具判别性的特征。Voxel-RCNN [ 4 ]指出无需对原始点进行精确定位。SE-SSD [ 50 ]通过自组装获得了优异的性能。CenterPoint [ 44 ]为3D检测提供了一个简单但有效的无锚点框架。LiDAR RCNN [ 19 ]给出了一种有效的解决尺度模糊问题的方法。SPG [ 40 ]生成语义点来恢复前景物体的缺失部分。Vo Tr [ 24 ]提出了一种基于转换器的架构来高效地捕获大上下文信息。金字塔R - CNN [ 23 ]设计了一个金字塔RoI头，从稀疏的兴趣点中自适应地学习特征。CT3D [ 28 ]设计了一个通道转换器来捕获点之间丰富的上下文依赖关系。然而，LiDAR数据通常是稀疏的，这对这些方法提出了挑战。

利用Multi - Modal数据进行三维检测。由于点云的稀疏性，研究人员寻求同时利用图像和点云的多模态方法的帮助。一些方法[ 26、37、39、48]使用级联的方法来利用多模态数据。然而，它们的性能受到2D探测器的限制。MV3D [ 2 ]采用RoI特征融合策略实现了一个两阶段的多模态框架，利用图像进行RoI细化。Cont Fuse [ 21 ]提出了一个连续的融合层来融合BEV特征图和图像特征图。MMF [ 20 ]得益于多任务学习和多传感器融合。VMVS [ 16 ]为伪点云中每个检测到的行人生成一组虚拟视图。然后使用不同的视图来产生一个准确的方向估计。3D-CVF [ 45 ]融合了多视角图像的特征。CLOCs PVCas [ 25 ]以可学习的方式将3D候选者的置信度与2D候选者的置信度进行细化。一些工作[ 13、32、34、38]通过建立图像与点云之间的对应关系，然后通过点云对图像特征进行索引，实现了细粒度的融合。然而，由于图像与点云之间的稀疏对应关系，它们索引的图像信息是有限的。值得注意的是，MMF [ 20 ]虽然也采用了深度补全，但并没有解决第1节提到的两个问题。在本文中，我们充分利用伪点云并给出了有效的解决方案。

深度补全。深度补全旨在彩色图像的引导下，从稀疏的深度图中预测稠密的深度图。最近，许多高效的深度补全方法被提出[ 8、9、12、14]。文献[ 12 ]利用双分支骨干网实现了精确高效的深度补全网络。文献[ 14 ]提出了一种多假设深度表示，可以锐化前景和背景之间的深度边界。尽管深度补全任务的首要目的是服务于下游任务，但在3D检测中使用深度补全的方法较少。在基于图像的三维目标检测中，有一些工作[ 36、46 ]使用深度估计来生成伪点云。然而，由于缺乏精确或充足的原始LiDAR点云，它们的性能受到了极大的限制。

图1。SFD由LiDAR流、伪流和稀疏密集融合头三部分组成。( 1 ) LiDAR Stream仅使用原始云来预测三维RoIs。然后使用RoIs对原始云和伪云进行裁剪。( 2 )伪流利用原始云和图像生成伪云。将伪云用RGB画出，得到彩色伪云。然后执行多个CPConvs (见3.5节)来提取RoIs中丰富的伪云信息。在Pseudo Stream的最后，对RoIs中的伪云进行体素化，并应用三维稀疏卷积。( 3 )在稀疏稠密融合头中，利用3D - GAF (见3.3节)对原始云和伪云的RoI特征进行融合，然后利用融合后的RoI特征预测类别置信度和边界框。此外，我们还使用了两个辅助头来规范我们的网络。它们可以在推断时刻分离。

3、Sparse Fuse Dense

3.1 Preliminaries

为了简单起见，我们将LiDAR生成的原始LiDAR点云和深度补全生成的伪点云分别命名为原始云和伪云。给定一帧原始云R，我们可以将其转换为具有已知投影TLiDAR→image的稀疏深度图S。令I表示对应于R的图像。将I和S馈送到深度补全网络，我们可以得到稠密的深度图D。利用已知的投影Timage→LiDAR，我们可以得到一帧伪云P。

图2。既往方法与3D - GAF的比较。

3.2 方法概述

我们在图1中展示了我们的框架，包括：( 1 )只使用原始云的LiDAR流，并作为一个RPN来产生3D RoIs；( 2 )使用提出的CPConv提取点特征，使用稀疏卷积提取体素特征的伪流；( 3 )稀疏密集融合头，以网格关注的方式融合原始云和伪云的3D RoI特征，并生成最终预测。我们在下面的部分详细介绍我们的方法。

3.3 3D Grid - Wise注意力融合

由于影像与点云之间的维度差距，先前的工作[ 2、15、20]直接拼接从BEV LiDAR特征图裁剪的2D LiDAR RoI特征和从FOV影像特征图裁剪的2D影像RoI特征，这是一种粗略的RoI融合策略。在我们的方法中，通过将二维图像转换为三维伪云，我们可以以更细粒度的方式融合图像和点云的RoI特征，如图2所示。我们的3D - GAF由3D Fusion、Grid - wise Fusion和Attentive Fusion组成。

( 1 )三维融合。使用3D RoI裁剪3D原始云和3D伪云，只包含3D RoI中的LiDAR特征和影像特征，如图2 ( b )所示。以往的方法使用2D RoI对图像特征进行裁剪，会涉及来自其他物体或背景的特征。它会造成大量的干扰，尤其是对于被遮挡的物体，如图2 ( a )所示。( 2 )Grid-wise算法融合。在以往的RoI融合方法中，影像RoI格网与LiDAR RoI格网之间没有对应关系，因此直接将影像RoI特征与LiDAR RoI特征进行拼接。在我们方法中，得益于原始RoI特征和伪RoI特征的相同表示，我们可以分别对每一对网格特征进行融合。它使我们能够用相应的伪网格特征精确地增强物体的每个部分。( 3 )注意融合。为了自适应地融合原始RoI和伪RoI中的每一对网格特征，我们使用了一个由[ 11、13、18]驱动的简单注意力模块。通常，我们为每一对网格预测一对权重，用权重对网格特征对进行加权，得到融合的网格特征。为了验证3D Fusion、Grid - wise Fusion和Attentive Fusion的有效性，我们在第4节提供了消融研究。

图3。Cpconv中Synaugment和Roi - Aware邻居搜索的实例说明。我们将原始gt box、采样gt box和RoIs分别用红色、紫色和绿色表示。为了可视化的方便，我们只展示了3种数据增强方法，并去掉了一些冗余的、得分较低的RoI。

在这里我们提供了我们的3D - GAF的详细描述。令b表示单个3D RoI。记F raw∈Rn × C和F pse∈Rn × C分别为b中的原始云RoI特征和伪云RoI特征。式中，n (默认为6 × 6 × 6 ,遵循我们的基线Voxel - RCNN )为三维RoI中的网格总数，C为网格特征通道。将F raw和F pse的第i个Ro I网格特征分别记为F raw i和F pse i。给定一对Ro I网格特征( F raw i , F pse i)，将F raw i和F pse i串联。然后将结果反馈到一个全连接层和一个sigmoid层，为这对网格特征产生一对权重( wraw i , wpse i)，其中wrawi和wpsei都是标量。最后，将( F raw i , F pse i)与( wraw i , wpse i)加权得到融合后的网格特征Fi。形式上，Fi可由下式得到：

在实际应用中，一个批次中所有的Ro I网格特征对都可以并行处理，因此我们的3D - GAF是高效的。

图4。Cpconv的插图

3.4 同步增强

由于图像和点云的不同表示，多模态方法很难利用许多数据增强方法，如gt采样[ 41 ]和局部去噪[ 49 ]。数据增强不足极大地限制了许多多模态方法的性能。因此，我们提出了一种多模态数据增强方法SynAugment，使我们的SFD能够使用针对LiDAR - only方法定制的所有数据增强方法。具体来说，SynAugment包含两个方面：在三维空间中操作点云等图像和提取图像特征。

多模态数据增强的最大挑战是如何操作点云这样的图像。深度补全给出了答案。通过深度补全，二维图像可以转换为三维伪云。用RGB绘制伪云，伪云携带了图像的全部信息。然后我们只需要像原始云一样对伪云进行数据增强，如图3顶部所示。

在三维空间中提取图像特征对图像进行点云等操作不足以实现多模态数据增强。目前，大多数多模态方法需要在FOV图像上提取图像特征。然而，这会限制模型使用可能导致FOV遮挡问题的数据增强方法(如gt采样和局部旋转等)。为了解决这个问题，我们提出在三维空间中提取图像特征，将二维图像转换为三维伪云。这样，由于我们不再在FOV图像上提取图像特征，因此不需要考虑遮挡问题。为了在3D空间中提取特征，我们可以使用3D稀疏卷积。然而，还有一种更有效的方法(见3.5节)。

值得注意的是，[ 35、47]可以通过对图像进行额外的遮挡检测来实现多模态gt采样，但它们不适用于更复杂的数据增强，不能简单地通过遮挡检测来解决，如局部噪声[ 49 ]和SA - DA [ 50 ]。一些将图像分割分数投影到原始云的工作[ 34、38]也可以使用多模态数据增强，但是由于图像和点云之间的稀疏对应关系，原始云携带的图像信息是稀疏的。在我们的方法中，每个gt采样器的图像信息是稠密的，因为我们可以在伪云中裁剪采样器的完整图像信息。

3.5 Color Point Convolution

定义对于一帧伪云P，我们将图像中每个像素的RGB ( r , g , b)和坐标( u , v)拼接到其对应的伪点上。因此，第i个伪点pi可以表示为( xi , yi , zi , ri , gi , bi , ui , vi)。

一种朴素的伪云特征提取方法是直接对伪云进行体素化并进行3D稀疏卷积，但实际上并没有充分挖掘伪云中丰富的语义和结构信息。Point Net + + [ 27 ]是一个很好的提取点特征的例子，但不适用于伪云。首先，PointNet + +中的球查询操作由于存在海量的伪点，会带来海量的计算。其次，Point Net + +无法提取2D特征，因为球查询操作没有考虑2D邻域关系。鉴于此，我们需要一种既能高效提取2D语义特征又能高效提取3D结构特征的特征提取器。

图像域上的Roi - Aware近邻搜索 基于上述分析，本文受体素查询[ 4 ]和网格搜索[ 5 ]的启发，提出了CPConv (彩色点卷积)，在图像域上搜索邻域。这样就可以克服PointNet + +的缺点。首先，伪点可以在恒定的时间内搜索到它的邻居，这使得它比球查询要快得多。其次，图像域上的邻域关系为提取二维语义特征提供了可能。

遗憾的是，我们无法将所有伪点投影到当前帧图像空间进行邻域搜索，因为在gt采样下，来自其他帧的伪点可能会造成视场遮挡。为此，我们提出了一种RoI感知的邻居搜索。具体来说，我们根据伪点携带的( u , v)属性，将每个3D RoI中的伪点分别投影到它们的原始图像空间中，如图3底部所示。这样，被彼此遮挡的伪点不会成为邻居，因此即使它们之间在FOV上存在严重遮挡，它们的特征也不会相互干扰。

伪点特征 对于第i个伪点pi，我们将pi的特征表示为fi = ( xi , yi , zi , ri , gi , bi)，它由3D几何特征( xi , yi , zi)和2D语义特征( ri , gi , bi)组成。受到文献[ 4 ]的启发，我们在进行近邻搜索之前对伪点特征应用一个全连接层来降低复杂度。在全连接层之后，将特征通道提升为C3，如图4所示。

位置残差 我们利用pi到其邻域的3D和2D位置残差，使pi的特征能够感知3D和2D空间中的局部关系，这对于同时提取pi的3D结构特征和2D语义特征尤为重要。对于pi的第k个邻居pik，pi和pik之间的位置残差表示为hik = ( xi-xik , yi-yik , zi-zik , ui-uik , vi-vik , | | pi-pik | |)，其中| | pi-pik | | =√( xi - xik)2 + ( yi-yik)2 + ( zi - zik)2。

特征聚合 对于pi的K个近邻，我们收集它们的位置并计算位置残差。然后我们在位置残差上应用一个全连接层，将它们的通道提升到C3以与伪点特征对齐。给定一组近邻特征Fi = { fki∈RC3，k∈1，· · ·，K }和一组近邻位置残差Hi = { hki∈RC3，k∈1，· · ·，K }，用对应的hik对每个fik进行加权。为了获得最大的信息保真度，加权近邻特征被级联[ 5 ]而不是最大池化[ 4 ]。最后，应用全连接层将聚合后的特征通道映射回C3。

多层次特征融合 我们叠加了三个CPConv来提取伪云的更深层次的特征。考虑到高层特征提供了更大的感受野和更丰富的语义信息，而低层特征可以提供更精细的结构信息，我们将每个CPConv的输出串联起来，以获得对伪云更全面和更有判别力的表示。

3.6 损失函数

我们沿用VoxelRCNN [ 4 ]的RPN损失和RoI水头损失，分别记为Lrpn和Lroi。为了防止梯度被特定的流所主导，我们在LiDAR流和伪流上都添加了辅助的RoI头损失，分别记为Laux1和Laux2。Laux1和Laux2与Lroi一致，包括类别置信度损失和回归损失。深度补全网络损失L depth遵循文献[ 12 ]的定义。则总损失为：

其中λ 1、λ 2和β分别为Laux1、Laux2和L depth (默认λ 1 = 0.5 , λ2 = 0.5 , β = 1)的权重。关于我们在本文中提出的方法的更多细节在补充材料中提供。

4、实验

4.1数据集和评估指标

我们在KITTI 3D和BEV目标检测基准上对我们的方法进行了评估[ 7 ]。KITTI数据集由目标检测任务中的7481个训练样本和7518个测试样本组成。将训练数据分为3712个样本的训练集和3769个样本的测试集。对于实验研究，我们使用train集和val集分别进行训练和评估。用40个召回位置计算的平均查准率对val集和测试集上的结果进行评估。我们还提供了由11个回忆位置计算的带有AP的val集的结果，以便与以前的工作进行公平的比较。由于Waymo和NuScenes数据集尚未为深度补全任务生成深度标签，我们没有在这两个数据集上进行实验。

4.2 实施细节

SFD的LiDAR流基于Voxel - RCNN [ 4 ]。对于深度补全，我们使用[ 12 ] . SFD作为我们的深度补全网络也能取得与[ 14 ]相当的效果。我们遵循[ 4 ] ( gt采样、全局旋转、全局翻转和全局缩放)和[ 49 ] (局部去噪和相似类的训练)中提到的数据增强方法。虽然我们的SFD可以在没有深度补全网络预训练的情况下进行端到端的训练，但是我们观察到初始化对于3D检测的性能至关重要。因此，我们在KITTI数据集上预训练深度补全网络，并在训练SFD时固定深度补全网络的参数。

表1。在KITTI汽车三维检测测试集上与现有方法进行对比，在KITTI服务器上评估了40个采样召回点的平均精度。

表2。在KITTI val套件上与最先进的方法进行汽车3D检测对比。使用11个和40个召回位置计算的平均精度对结果进行评估。

表3。在汽车BEV检测的KITTI测试集上与当前最先进的方法进行比较，在KITTI服务器上评估了40个采样召回点的平均精度。

表4。不同组分对KITTI val set的影响。用40个汽车类召回位置计算的AP值对结果进行评价。3D-GAF '和' CPConv '分别表示三维网格注意力融合和彩色点卷积。

表5 .对SynAugment的消融研究。用40个汽车类召回位置计算的AP值对结果进行评价。

表6 . Ablation study on 3D-GAF. “3D”: 3D Fusion. “Gridwise”: Grid-wise Fusion. “Attentive”: Attentive Fusion. The results are calculated by 40 recall positions for car class.

4.3 与SOTA比较

我们通过将结果提交到KITTI在线测试服务器，在KITTI测试集上将我们的SFD与最先进的方法进行了比较。如表1所示，我们的方法取得了显著的效果。我们在很大程度上超越了所有先进的多模态方法。对于仅使用LiDAR数据的方法，我们的基准Voxel - RCNN在中等水平上提升了3.14 % AP，在中等水平和mAP上分别优于已发表的最好方法SE - SSD [ 50 ] 2.22 %和1.07 % AP。截至2021年11月16日，我们的方法在竞争激烈的KITTI汽车3D检测基准上排名第一。此外，我们提供了KITTI val集合的比较，如表2所示。在BEV检测中，SFD仍处于领先地位，见表3。我们将Voxel - RCNN在适中的度量上提升了3.02 %的AP，并取得了与最先进方法SE - SSD相当的结果。

表7 .与不同探测器配合使用。通过40个召回位置计算平均精度。

表8。在不同距离和不同遮挡程度上的表现。使用40个中等级别的汽车类召回位置计算的3D AP对结果进行评估。

表9 .不同多模态方法的推理速度。

4.4 消融研究

这里我们提供了大量的实验来分析我们方法的有效性。表4中，实验( a )是我们在Voxel - RCNN上修改的基线[ 4 ]。它只使用原始云作为输入。实验( b )和( c )都配备了我们的多模态数据增强方法SynAugment，以便与配备了单模态数据增强的实验( a )进行比较。

图5。我们的Sfd和Voxel - Rcnn的比较。对于SFD和Voxel - RCNN的可视化，我们分别使用了伪云和原始云。我们分别以红色、绿色和浅蓝色显示了真实框、真阳性和假阳性。绿色箭头代表我们的预测更加准确，浅蓝色箭头代表Voxel - RCNN的假阳性。

3D - GAF的影响 表4中的实验( b )使用3DGAF融合RoI特征，在易、中、难3个级别上分别获得0.61 %、1.10 %和2.32 %的AP提升。为了提取伪RoI特征，我们简单地将伪云体体素化并进行3D稀疏卷积。

表10。以40个召回位置计算的汽车、行人和骑车人在KITTI val集上的SFD性能。

CPConv 的影响 表4中的实验( c )在实验( b )的基础上使用CPConv提取了更丰富的伪云特征，得到了88.56 %的AP，AP提升了1.99 %，体现了CPConv的有效性。

Effect of SynAugment 我们的SynAugment使我们的多模态框架能够利用仅针对LiDAR方法的数据增强方法，如gt - sample、local nosing和global scale。我们从表4中的实验( a )和( b )中删除了这些数据增强方法，得到了表5中的实验( a )和( b )。如表5所示，在没有多模态数据增强的情况下，本文方法的性能急剧下降，证明了充分的数据增强对于多模态方法的重要性。

图6。图5 ( b )中对象υ的不同视图。

3D Grid - Wise注意力融合消融研究 为了验证3D - GAF各部分的有效性，进行了实验，如表6所示。实验( a )直接拼接原始RoI特征和2D RoI裁剪的伪RoI特征，我们称之为2D基于感兴趣区Concat Fusion。实验( b )将原始RoI特征和3D RoI裁剪后的伪RoI特征进行拼接，我们称之为3D基于感兴趣区Concat Fusion。实验( c )在实验( b )的基础上以网格方式融合一对RoI特征，我们称之为3D Grid-wise Concat Fusion。实验( d )是实验( c )的扩展，是我们的三维网格注意力融合。结果表明，3D - GAF的每个部分都可以提高我们的SFD。此外，我们发现网格融合和注意力融合的贡献分别主要集中在中等水平和容易水平。

与不同检测器的协同 为了验证我们方法的普适性，我们为不同的LiDAR - only检测器配备了我们的SFD框架。在我们的实验中，我们使用了OpenPCDet [ 33 ]实现的PointRCNN [ 30 ]，Part-A2 [ 31 ]和SECOND [ 41 ]。从表7可以看出，我们的方法对不同的检测器都有显著的提升。对于一级探测器SECOND，我们使用与Pseudo Stream (具有稀疏卷积的CPConvs)相同的架构来提取3D RoIs中原始云的特征。原始云层也用RGB彩绘，与伪云层一致。

条件分析 为了弄清楚在什么情况下我们的方法对基线的改善最大，我们评估了我们的SFD在不同距离和不同遮挡程度上的表现。如表8所示，距离较远和遮挡严重的物体改善最多，验证了我们的假设，即伪点云对原始点稀疏的物体有帮助。

推理速度 我们在NVIDIA RTX 2080 Ti GPU上测试了SFD的推理速度。在深度补全网络下，SFD的速度为10.2 FPS。由于SFD是一种多模态检测器，不可避免地比一些单模态方法速度慢。然而，在多模态方法中，SFD实际上并不慢，如表9所示。

三分类训练 为了进一步验证SFD的有效性，我们训练了一个用于汽车、行人和骑车人检测的单一模型。如图10所示，SFD可以持续改进Voxel - RCNN。

4.5 定性结果与分析

图5展示了我们的SFD和Voxel - RCNN [ 4 ]的预测可视化。它提供了3个案例，分别对应SFD改进Voxel - RCNN的3种情况。

遮挡遮挡是自动驾驶场景中的一个具有挑战性的问题，如图5 ( a )所示。物体σ被前方的黑色汽车严重遮挡，使其上的原始云层不足(参见á )。幸运的是，伪云可以通过提供足够的三维几何信息和额外的二维语义信息来缓解这一问题。

长距离 图5 ( b )展示了另一种常见的场景。由于LiDAR分辨率的限制，距离较远的地物点较少。对于原始云稀疏的物体(如√)，很难预测一个精确的盒子。然而，物体上的伪云更加丰富。图6显示了伪云在υ上的不同视图，证明了伪云有资格为原始云提供补充信息。

类似于前景的背景 密集伪云不仅有利于定位前景，而且有助于区分背景和前景。由于原始云的稀疏性，一些背景原始云与前景非常相似，可能会混淆检测器，造成大量的误报。如图5 ( c )所示，Voxel - RCNN将栅栏误认为汽车，因为栅栏和汽车上的原始云相似。尽管如此，它们上的伪云有很大的不同，这有助于我们的SFD区分它们。

5、结论

在本文中，我们提出了一种新的多模态框架SFD用于高质量的3D检测。我们设计了一种新的RoI融合策略3D - GAF，以更细粒度的方式融合原始云和伪云。通过提出的SynAugment，我们的SFD可以使用针对LiDAR - only方法定制的数据增强方法。此外，我们设计了一个CPConv来有效地提取伪云的特征。实验结果表明，该方法能够显著提高检测精度。