#Hierarchical BEV

BEV进入定制化时代!清华Hierarchical BEV:创新多模块学习框架,无痛落地无缝量产!

论文思路

自动驾驶指通过传感器计算设备、信息通信、自动控制和人工智能的集成,将车辆转变为能够自我导航的实体。环境感知系统是智能车辆获取外部信息的通道,它的任务是收集、处理和分析与车辆周围环境有关的数据,作为自动驾驶的先决条件。感知系统作为智能驾驶技术的关键要素,为后续模块如定位、预测、决策、规划、控制等提供必要的输入数据。目前,大多数用于车辆实现的感知算法都是基于深度学习实现的,特别是神经网络,这些算法在带有标签的公共数据集上进行训练,并部署在一系列视觉感知任务中。为了解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题,论文提出了一种新的分层感知范式,旨在提供一个基本感知模块库和用户友好的图形界面,从而能够快速构建定制模型。

挑战及主要贡献

挑战

  • 算法在不同和动态设置中的可泛化性:在一种情况下表现出色的模型可能在另一种情况下表现不佳,这强调了适应性强、效率高的感知系统的必要性;
  • 开发智能感知算法的传统过程受到长周期缺乏模块化的阻碍:这导致了组件的低可重用性,复杂的配置,增加了工程工作中的冗余,增加了开发成本;
  • 在部署过程中缺乏系统的方法来利用公共功能模块,使得大规模生产感知系统的优化变得复杂,阻碍了对特定任务需求的有效适应。

主要贡献

为了应对上述的这些挑战,论文中引入了一种分层感知方案,设计了一个综合框架来简化自动驾驶汽车感知算法的开发。通过将基本算法组件组织到一个功能模块库中,所提出的感知方案使汽车工程师能够以更高的效率构建和定制满足特定操作需求的感知模型。该方案根据感知模型的功能角色对其进行分类,每个模块提供网络结构的选择,这种设计不仅有利于与各种平台的计算能力保持一致,而且简化了对自定义数据集的适应,从而提高了开发效率。这些标准化功能模块的可复用性大大减少了重复的工作,从而缩短了开发时间。另外,考虑到智能汽车平台的快速发展和对快速功能更新的需求,该模块化感知系统具有固有的可扩展性。它允许开发人员轻松地引入新模块或改进现有模块,确保系统的发展响应新出现的需求和技术进步。

为了提高开发效率,论文还提出了一种将预训练与微调相结合的范式。通过利用开源数据集,建立一个性能良好的模型的多样化存储库,这些预训练模型提供了一个坚实的基础,使得在微调阶段需要更少的训练数据和更少的迭代。这种方法使用户能够适应功能和调整参数以匹配自定义数据集,而后通过迁移学习和领域适应等技术在现实场景中实现最佳性能。具体来说,预训练方案包括对每个潜在模块组合进行详尽的训练,以确保每个感知模块被赋予与上游和下游功能对应的兼容权重。一旦建立了感知功能模块库,那就在预训练阶段引入了一种新的多模块学习范式。是针对分层解耦的感知系统设计的,它提高了整体的训练效率,并且可以同时优化多种模型架构以获得性能提升。在后续的研究中,框架已经证明了其有效性。主要贡献可以概括如下:

  • 介绍了一个分层感知系统,提供了一个基本组件库和图形界面,以简化开发过程。用户可以通过拖放操作建立自己的感知模型;
  • 部署范式,以促进快速部署和增强感知算法的可泛化性;
  • 提出了一个创新的多模块学习框架,该框架表明多个模块的联合训练可以提高单个任务的性能并增强模型的鲁棒性。

模型架构:自动驾驶感知集成方案分层感知范式

51c自动驾驶~合集8_自动驾驶

图1 分层感知方案概述

论文中提出的分层感知系统的技术细节如图1所示。其核心创新在于提供了一个模块化且易于操作的感知算法构建过程视图,该过程分别通过集成功能模块组件的预训练算法和微调算法来实现。如表1所示,在集成车辆-云端-道路架构的背景下,封装了一套39个通用感知功能模块来表示概念分类。车辆-云端-道路集成感知系统以单个车辆智能感知为基础,主要包括车辆之间、车辆与基础设施之间的协同感知。为了构建数字感知功能模块库,采用多模块集成的知识共享训练方法。首先,在庞大的公共数据集上预训练感知功能模块的各种组合,从而创建模块化组件的存储库。随后,设计一个用户友好的图形化软件界面,通过直观的拖放操作来促进模型的构建。这种图形化软件可以轻松地组装感知模型,为训练、推理和微调提供统一的界面。

51c自动驾驶~合集8_自动驾驶_02

表1 车辆-云端-道路集成架构感知功能模块库

以视觉为中心的三维物体检测的原型设计

为了实现表1中描述的设计方案,采用了分阶段迭代的方法。分阶段的实施步骤基于三个关键要素:传感器、感知目标和感知功能。分层三维目标检测方法具有模块化结构,集成了一套专用组件。首先采用图像视图特征提取器对视觉特征进行有效捕获和编码;随后,使用视图转换器将这些编码特征从透视图转换为鸟瞰图 ,利用时间特征融合模块整合时间信息得到进一步增强特征表示。最后,使用一个特定的检测头在视角下完成目标检测任务。

1)特征提取

图像特征提取模块的主要功能是从输入图像中分别提取低级和高级视觉特征,形成一个通用的视觉表示。为了解决平台的不同计算能力,论文中选择了两种具有不同参数计数和架构复杂性的骨干网络:和  。的参数量约为2560万,计算负载约为,非常适合具有中间层计算资源的平台。其更深层的架构,配备了复杂的瓶颈模块,在性能和效率之间取得了不错的平衡,满足了广泛的应用需求。相比之下,  是一个密集连接的骨干网络,其设计目标是在不牺牲性能的情况下提高内存效率和推理速度,它的参数量约为1.08亿个,是计算资源丰富的高性能场景的可靠选择。

默认情况下,特征金字塔网络输出的多尺度特征符合1/16、1/32和1/64的尺度,通道维数。

2)图像视图转换

图像视图转换模块包含两种不同复杂性的基于转换器的方法:空间交叉注意和几何引导的核转换器,两者都是基于的方法,以数据驱动的方式对透视图转换建模。视图变换模块的输入由透视视图中图像特征提取模块输出的多尺度图像特征组成。机制旨在通过跨空间注意力机制来集成透视图和特性,它从不同角度捕捉特征之间的相互关系,从而提高了特征转换的精度。首先,将透视特征和初步变换后的特征线性映射到统一的特征空间中;然后计算注意力权重,指示不同位置的特征之间的相关性;最后利用这些权重对特征进行加权求和,实现特征融合。相反,模块通过将几何变换与深度学习模型相结合来优化特征变换过程,从而提高了计算效率。该模块自适应调整卷积核以适应不同的几何结构,提高了特征变换的精度。简单的几何信息,如深度图和相机参数,最初被用来生成几何引导的卷积核,这些核可以动态调整,以更好地捕捉特征中的空间关系。对于由地面高度点组成的查询,通过相机的内外参确定对应的透视图像坐标,然后提取附近的核区域特征并进行交叉关注以产生特征。

3)时间特征融合:

来自历史的时间线索为自动驾驶中的感知提供了额外的信息。时间特征融合模块用于整合图像的时间特征,增强对动态环境的理解。通过提取和合并时间信息,该模块提高了模型对运动物体动态的理解,克服了单帧感知约束,扩大了感受野,减轻了物体检测和目标遮挡等抖动问题,从而提高了精度和一致性。时间特征融合的过程包括三个关键步骤:首先,对前一帧的选择过程确定融合的时间范围。模块从当前帧之前的四帧中随机选择三帧,它们共同代表两秒的间隔。初始帧因为没有先前的帧进行比较,则与自身的副本融合在一起。这个过程需要对每个迭代进行四次向前传递和一次向后传递。直接从缓存中检索前一帧的BEV特征,以保持推理效率;其次,根据自我运动调整前帧的特征,使其与当前帧的特征在统一的坐标系内对齐,从而实现时空对齐。这种对齐对于精确的特征集成至关重要。由于前一帧和当前帧的特征都是在各自的自我-车辆坐标系中定义的,因此必须转换前一帧的特征坐标来和当前帧的特征坐标相对应;最后一步是时间信息的整合:如图2所示,在分层3D目标检测器中集成了两种模块:时间自注意模块和循环拼接融合模块。

模块通过对每个特征应用可变形注意力,将之前和当前的特征在空间和时间上对齐,然后在平面上进行算术平均融合;而模块是基于级联操作和线性层的组合设计的,以一种跨时间维度综合信息的方式融合了对齐的先前和当前特征。

51c自动驾驶~合集8_自动驾驶_03

图2 两种不同的时间特征融合方法

4)检测头:

论文中以为基准,采用基于的改进三维检测头,得到最终的预测结果。检测头由6层解码器组成,即交错排列的自注意层和交叉注意层。通过利用单尺度特征作为输入,解码器能够以端到端方式预测边界框和速度,从而消除了后处理的需要。

多模块学习框架

预训练方案包括对每个潜在模块组合进行详尽的训练,确保每个感知模块被赋予与上游和下游功能对应的兼容权重。针对层次解耦的感知系统,方法在核心目标上不同于多任务学习范式。的主要目的是通过联合学习来提高个体任务的表现。相反,框架是由开发一个通用模型库为目标驱动的。通过使用,可以同时训练不同的模型体系结构以获得性能改进。该方法不仅适用于单任务学习情境,也可扩展到多任务学习情境。为了全面地描述,首先需要了解MML的定义。

定义如下:给定个功能模块,其中所有模块或其中的一个子集是相关的,而多模块学习的目的是通过使用所有模型集成中包含的知识来共同学习个模块,以提高模型对共同任务的学习能力。

论文中提出了面向功能模块集成和跨不同模型的通用模块权值收敛的。首先,对复合模型的整个谱进行独立训练,得到每个模型各自的权重参数;然后,在每个训练单元结束时,执行参数融合和跨模型的同源模块权值更新。该策略旨在促进模型间的信息交换,从而增强模型吸收不变特征的能力。在随后的训练迭代中部署合并的权重,使这个循环持续下去,直到达到预定的训练周期阈值。如图3所示,以组合为例详细介绍了所提出的多模块预训练过程。训练流程描述如下:最初,对每个不同的组合模型执行一个单独的小训练会话,该大小为3。在这个初始训练阶段之后,执行参数融合,并更新所有模型共有的模块的权重。随后,进行进一步的训练迭代以实现优化。这个过程的目的是一旦达到预先设定的最大训练次数就结束。在实验中,这个最大值被设置为8轮。因此,这个迭代过程在八个周期中反复进行,最终得出最终的功能模块权重。

51c自动驾驶~合集8_自动驾驶_04

图3 多模块学习框架

通过采用软参数共享的方法,提供了一种更加灵活的多模型学习体系结构。在软参数共享的框架下,每个模型都有自己独立的结构和一组排他的参数,而不是直接共享很大一部分网络层。这种设计考虑到不同的任务可能需要学习不同的特征表示,因此,赋予每个模型一定程度的排他性能力有助于提高整体性能。然而,为了实现知识迁移和促进通用表示的学习,软参数共享并没有完全隔离每个任务的模型参数。相反,它通过施加一定的约束,促使不同任务的模型参数趋于相似,从而在一定程度上实现参数共享。

在以视觉为中心的物体检测的背景下,将整个感知模型分为四部分,计算模型的总组合次数为。其中表示某部分所包含的模块数。一个功能模块可以表示为θ,θ,其中表示输入数据,θ表示权重值。那么,柔性功能模块化装配方法可以表示为θ,它可以用以下四个分量表示:

其中表示不同的功能模块,表示输入到不同模块的特征。如算法1所示,在模块化组装阶段,对一个小单元训练的所有个权值进行迭代,如果权值θ包含相应的功能模块权值θ,则将其保存并与包含相同功能模块的所有权值平均。

51c自动驾驶~合集8_自动驾驶_05

其中表示含有某一模块的模型数,θ表示装配后的权重。

51c自动驾驶~合集8_自动驾驶_06

算法1 平均模块组装策略

51c自动驾驶~合集8_自动驾驶_07

实验实现细节

数据集和指标  数据集是一个多模式自动驾驶数据集,提供了丰富的传感器数据,包括32个摄像头、5个雷达、16个激光雷达、和数据。检测基准,由1000个多模态视频组成,每个视频延长约20秒,关键帧以的间隔捕获。这种设置确保了一个完整的360度的视野,图像数据从六个相机中获取。每个样本由来自前、前左、前右、后左、后右和后方向的6个摄像头的图像组成。数据集被精心划分为700个视频用于训练,150个用于验证,150个用于测试。对于检测任务,有来自10个类别的18538个带注释的边界框。实验中使用官方的评估标准进行评估。的平均精度()是利用地平面上的中心距离而不是三维交并比()来计算,以匹配预测结果和地面真实值。度量还包含5种真值度量(度量),包括、、、和,分别用于度量平移、尺度、方向、速度和属性误差。还定义了检测分数(NS)来评估检测任务的各个指标综合情况。

训练的细节   实验是通过实现和进行,相应的代码在4块内存为、批处理大小为4的     上执行。初始学习率设置为进行训练,并在训练过程中使用余弦策略动态更新学习率。在预训练阶段,除了模型参数外,所有的超参数和设置都按照 的参数进行设置。3D目标检测模型采用了两种骨干架构:,用检查点的权重初始化;  ,检查点的权重初始化。在微调阶段,使用所有预训练的权值初始化目标检测模型。

比较结果

为了证明论文设计的方法的有效性和泛化性,实验利用对所有8个复合模式模型进行预训练,如表2所示。从验证数据集中随机抽取样本作为微调数据。表3说明了方法在物体检测环境中应用于各种集成模型时所取得的性能改进。所有模型都在训练数据集上进行了由24个组成的预训练阶段,然后在10%的验证数据集上进行了另外24个的微调阶段。结果表明,在所有测试的集成模型中,的应用导致和的一致性改进。图4通过数据直方图将对比实验结果进一步可视化。图5给出了各模型的基线性能、应用方法后的性能和改善情况(分别用和表示)。

51c自动驾驶~合集8_自动驾驶_08

表2 不同模型配置的详细信息

51c自动驾驶~合集8_自动驾驶_09

表3 对不同的集成模型实现了一致的改进

从图4可以看出,模型的改善最为显著,为2.9%,为4.7%。同样,基于的模型也显示出显著的改进,尤其是模型,其为1.6%,为1.7%。虽然模型的绝对性能通常优于模型,但基于的模型的相对改进更为显著。这表明这些模型从的集成中获益更多。综上所述,上述所有实验结果都证明了方法在提高数据集上不同集成模型的性能方面的有效性,如和指标的改进。结果强调了方法在目标检测任务中显著提高深度模型的鲁棒性和准确性的潜力。

51c自动驾驶~合集8_自动驾驶_10

图4 不同模块组件的三维探测器在nuScenes数值集上的对比结果

51c自动驾驶~合集8_自动驾驶_11

图5 nuScenes验证集的可视化比较结果

消融实验

论文中利用简单有效的平均操作进行消融研究,以验证所提出的训练策略的有效性。进一步使用不同的模型权值合并算法进行数值实验,如图6所示,分别命名为和。在中,模块参数通过加权求和更新,其中参数由从精度度量和函数导出的加权因子确定,如式4所示。方法通过使用显示最高分数的模型的参数更新模块权重,进一步优先考虑简单性。不同数据设置下的定量评价结果如表4和表5所示,强调了各种集成策略在和模型上的性能。使用策略,系列模型的从21.41%提高到22.29%,从36.62%提高到37.98%。相比之下,和策略的和值降低。

51c自动驾驶~合集8_自动驾驶_12

图6 消融方法

51c自动驾驶~合集8_自动驾驶_13

表4 在nuscenes验证数据集上与1:9分割的性能比较

51c自动驾驶~合集8_自动驾驶_14

表5 在nuscenes验证数据集上与3:7分割的性能比较

系列模型(如)显示,随着策略的增加,和分别增加了33.50%和47.06%。30%的数据集证实了这些结果,对模型产生轻微的和上升,而和未能超过基线。值得注意的是,系列模型在使用后表现出更明显的改进,如模型的和分别上升到21.55%和43.31%。模型与这一模式相呼应,和分别提高到20.06%和41.77%。

总体来说,策略在和模型中提供了最一致的改进,增强了和指标。相反,与基线相比,和策略通常会导致较低的性能,这表明这些优化方法对于本研究中使用的模型和数据集可能不那么有效。

讨论

图7和图8所示的拟合曲线描述了集成模型的性能趋势,显示了、、和训练方法随时间的增量改进和稳定性。

51c自动驾驶~合集8_自动驾驶_15

图7 不同权值合并策略的比较,每个子图显示了训练过程中每个模型的mAP指标

51c自动驾驶~合集8_自动驾驶_16

图8 不同权值合并策略的比较,每个子图显示了训练过程中每个模型的NDS指标

模型的性能是在一段时期内测量的,轴表示通过训练时期的进展,轴分别表示和指标。这些子图说明了每种优化策略的不同性能轨迹。传统的训练方法始终用黑色曲线表示,这表明在所有子图上性能逐渐稳定地增加。基于和的策略,分别用红色和绿色曲线表示,表现出竞争性和经常重叠的改进,在大多数情况下,策略在性能上比策略略有优势。用蓝色曲线表示的策略,与其他策略相比,始终显示出更保守的改进速度,这表明可能存在不同的收敛概况。

从图8中可以看出,方法的性能逐渐提高,达到平台期,表明性能在一定数量的后趋于稳定。方法的性能似乎比略好,这表明在算法中加入权重可能会提供性能上的适度改进。方法表现出波动,这可能意味着它更有效地利用某些时代,尽管它也可能更容易过度拟合或不太可泛化。相比之下,传统训练方法在整个epoch中保持较低的性能水平,表明与其他方法相比,传统训练方法的性能更稳定,但可能优化程度较低。来自验证集的实验结果,如表六所示,提供了对不同集成策略的性能影响的见解。

51c自动驾驶~合集8_自动驾驶_17

表6 8种模型在nuscenes val数据集上的预训练对比结果

对比显示,与模型的基线相比,和策略通常会导致性能下降。例如,模型显示,从21.82% ()下降到19.73% (), 从33.31%下降到29.78%。在相同策略下,和等模型在性能上表现出更高的一致性和稳定性。即使在贪心策略下,模型的也保持在35.88%以上,保持在46.69%以上,这表明该模型对策略引起的变化的处理更为稳健。例如,模型仅经历轻微波动,在贪心策略下的为33.88%,为42.60%,而基线分数分别为34.32%和42.32%。总之,架构似乎更善于在不同策略之间保持性能,而模型更容易受到策略引起的性能变化的影响。模型的鲁棒性可能归因于其表征学习的能力。

结论

该论文旨在开发模块化感知系统架构,支持可重用和可重构组件,为下一代汽车计算智能平台量身定制。提出的框架提供了丰富灵活的基础算法构建模块,允许开发者根据具体需求选择和组合不同的功能模块,从而促进定制化智能驾驶感知算法的快速开发。该框架可以不断扩展功能模块库,适应不同的用户需求,并具有持续学习的能力,从而缩短开发周期。



#Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement

GSD-Occ:实时Occ最新开源,速度比SOTA快3倍,mIoU提高1.9!

论文标题:Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement


本文提出了GSD-Occ,一种创新的实时3D占用预测方法,通过几何-语义双分支网络和解耦学习策略,实现了高效率和高精度的占用预测。实验表明,GSD-Occ在保持20 FPS处理速度的同时,达到了39.4%的mIoU,超越了现有技术,并将代码开源以推动进一步研究。

占用预测在自动驾驶中至关重要,因为它提供了精细的几何感知和通用的对象识别能力。这些能力使得自动驾驶系统能够准确地感知和理解周围环境,从而进行安全有效的路径规划和决策。然而,现有的方法通常计算成本高,难以满足自动驾驶对实时性和效率的严格要求。为了应对这一挑战,作者首先评估了大多数公开可用方法的速度和内存使用情况,旨在将关注点从单纯追求准确性转移到提高计算效率和资源利用率方面。

51c自动驾驶~合集8_自动驾驶_18

▲图1|Occ3D-nuScenes基准测试中各占用预测方法的推理速度(FPS)和准确率(mIoU)

实现快速且准确性能的关键在于几何和语义之间的强耦合,为此,作者提出了一种具有混合BEV-体素表示的几何-语义双分支网络(GSDBN)。在BEV分支中,引入了一个BEV级别的时序融合模块和一个U-Net编码器以提取密集的语义特征。在体素分支中,提出了一种大核重新参数化的3D卷积,以细化稀疏的3D几何并减少计算。此外,作者提出了一种新的BEV-体素提升模块,将BEV特征投射到体素空间,以实现两个分支的特征融合。

此外,作者还提出了一种几何-语义解耦学习(GSDL)策略。该策略首先使用准确的几何真值深度来学习语义,然后逐步混合预测深度以使模型适应预测的几何。实验表明,本方法在Occ3D-nuScenes基准测试中表现出色,以39.4 mIoU和20.0 FPS的成绩超过了CVPR2023 3D占用预测挑战赛的冠军FB-OCC,速度提高了约3倍,mIoU提高了1.9。

51c自动驾驶~合集8_自动驾驶_19

▲图2|几何语义耦合问题示意图:(a) 不准确的深度预测会导致2D到3D特征投影的错误,需要后续网络进行细化和纠正;(b) 展示了预测深度和真实深度之间的性能差距,展现了解决该问题的重要性

■3.1 问题表述

给定传感器数据(例如相机图像、点云等)和目标场景的历史信息,我们的目标是生成高质量的3D占用图。这些占用图可以用于多种应用,例如自动驾驶、机器人路径规划等。

51c自动驾驶~合集8_自动驾驶_20

▲图3|GSD-Occ的整体架构概览

■3.2 整体框架

几何-语义解耦占用预测器(GSD-Occ)的流程图如图3所示。该方法包括以下几个主要部分:

●图像编码器:用于提取图像特征。具体来说,给定T时刻的一组环视相机图像,本文采用预训练的主干网络(如ResNet-50)来提取图像特征,并使用FPN进一步处理。

●2D到3D视图转换:该模块将2D图像特征转换为体素表示。由于实时模型的学习能力有限,本文采用了一个显式视图转换模块,并通过深度监督进行训练。具体过程是,首先将图像特征输入到深度网络(DepthNet),生成预测的深度分布。然后,利用外积操作将图像特征和深度分布结合,得到伪点云特征。最后,通过体素池化操作获得体素特征,并进行2倍下采样以减少计算复杂度。

●几何-语义双分支网络(见3.3):该网络通过几何分支和语义分支高效地保持几何完整性并提取丰富的语义信息。

●几何-语义解耦学习策略(见3.4):该策略进一步增强了几何细化和语义学习的能力。

■3.3 几何-语义双分支网络

为了实现实时的3D占用预测,作者提出了一种几何-语义双分支网络(GSDBN)。该网络结合了鸟瞰图(BEV)表示和体素表示,既保证了计算效率又保持了几何完整性。GSDBN包含两个主要分支:语义BEV分支和几何体素分支。

◆语义BEV分支

语义BEV分支旨在从传感器数据中提取语义信息,并将其映射到鸟瞰图表示中。这一过程包含以下步骤:



●特征提取:使用ResNet-50作为特征提取器,从输入图像中提取高层次特征。


●特征转换:将提取的特征映射到鸟瞰图表示中,生成语义鸟瞰图。

◆几何体素分支

几何体素分支专注于从传感器数据中提取几何信息,并将其表示为体素。这一过程包括以下步骤:



●体素化:将传感器数据转换为体素表示。


●几何编码:使用大卷积核的3D卷积对体素进行编码,捕获细粒度的几何信息。

51c自动驾驶~合集8_自动驾驶_21

▲图4|3D几何编码器中大核3D卷积重参数化技术示意图:该技术使用并行的空洞小核3D卷积来增强非空洞大核3D卷积,图中示例的卷积核大小为 [11, 11, 1]


■3.4 几何-语义解耦学习

为了进一步提高模型性能,作者提出了一种几何-语义解耦学习策略。该策略将几何校正和语义知识的学习过程分离开来,采用了一种简单而有效的学习方法,使得模型在不同的预训练模型和方法上都能保持一致的准确性提升。

具体来说,在训练初期将真实深度引入LSS,使模型能够在准确的真实几何信息下专注于学习语义信息。随后,在训练过程中,逐渐将真实深度与预测深度混合,以适应模型对预测几何的学习。混合深度通过算术平均得到,使用一个因子α控制真实深度和预测深度的比例。

随着训练的进行,α的值逐渐增加,使模型在训练结束时能够很好地细化预测的几何信息,并在推理时不再需要真实深度。通过这种逐步过渡的方法,模型既能利用真实几何信息进行语义学习,又能在推理阶段自适应地处理预测几何信息,从而提高整体的稳定性和准确性。

51c自动驾驶~合集8_自动驾驶_22

▲图5|FB-OCC和本文方法的定性结果比较:结果表明,本文的方法能够构建更详细的几何结构(第1行和第2行)、更准确的语义(第3行)以及在夜间更强的适应性(第4行)

51c自动驾驶~合集8_自动驾驶_23

▲图6|GSDL陡度的消融研究

51c自动驾驶~合集8_自动驾驶_24

▲表1|Occ3D-nuScenes数据集上的3D占用预测性能比较

51c自动驾驶~合集8_自动驾驶_25

▲表2|Occ3D-nuScenes数据集上的3D占用预测性能比较,使用RayIoU指标

51c自动驾驶~合集8_自动驾驶_26

▲表3|GSDBN各组件的消融研究结果

51c自动驾驶~合集8_自动驾驶_27

▲表4|GSDL在不同预训练模型和方法上的有效性分析

51c自动驾驶~合集8_自动驾驶_28

▲表5|BVL模块的有效性分析

51c自动驾驶~合集8_自动驾驶_29

▲表6|时间融合中不同历史帧数量的影响分析


51c自动驾驶~合集8_自动驾驶_30

▲表7|3D编码器中不同卷积核大小的影响分析

本研究提出的几何-语义解耦占用预测器(GSD-Occ)结合鸟瞰图(BEV)和体素表示,通过几何-语义双分支网络(GSDBN)和几何-语义解耦学习(GSDL)策略,实现了高效和准确的实时3D占用预测。实验结果表明,GSD-Occ在保持高质量占用预测的同时,满足自动驾驶对实时性的要求。

未来的研究将进一步优化GSD-Occ,通过设计更高效的网络结构以减少计算复杂度,融合激光雷达等多传感器数据以增强预测的准确性和鲁棒性,引入自适应学习机制以提高模型的泛化能力等方式。此外,还需要加强在实际道路和复杂交通环境中的测试,以验证模型的可靠性和安全性。



#SegPoint

通过LLM分割任意点云(南洋理工&复旦)

尽管在3D点云分割领域取得了显著进展,但现有方法主要针对特定任务,并依赖于明确的指令来识别目标,缺乏在统一框架中推断和理解用户隐式意图的能力。在本研究中,我们提出了一种名为SegPoint的模型,该模型利用多模态大型语言模型(LLM)的推理能力,在多种任务中生成逐点分割掩码:1)3D指令分割,2)3D指代分割,3)3D语义分割,以及4)3D开放词汇语义分割。为了推动3D指令研究的发展,这里还引入了一个新的基准数据集Instruct3D,旨在从复杂且隐式的指令文本中评估分割性能,该数据集包含2,565个点云-指令对。实验结果表明,SegPoint在指代分割的ScanRefer和语义分割的ScanNet等现有基准数据集上取得了具有竞争力的性能,同时在Instruct3D数据集上取得了出色的成果。据我们所知,SegPoint是第一个在单一框架内解决这些多样化分割任务的模型,并取得了令人满意的性能。

领域背景分析

3D点云分割是3D视觉领域的一项关键挑战,旨在解释和分类点云中的每个点,以理解其语义属性。这一长期存在的问题推动了包括机器人、自动驾驶、虚拟现实等在内的多个领域的显著进步。这一挑战已演化为一系列专门的任务,每个任务都针对特定的分割方面。总体而言,这些任务涵盖了基本的语义分割和实例分割,以及更实用的任务,如指代分割,它根据明确的文本描述对点进行分割,以及为应对现实世界动态且复杂的特性而设计的开放词汇分割。

尽管3D领域在通过专门设计的模型准确分割物体方面取得了显著进展,但每个模型通常都是为了解决一个特定的分割任务而开发的,这导致了在现实世界应用中的效率低下和缺乏通用性。此外,以往的感知方法严重依赖于预定义的类别或明确的表达来进行语言理解。这些方法在解释和响应人类语言中常见的隐式指令方面存在不足,这是一个关键的差距,阻碍了真正智能的下一代感知系统的发展。这引出了一个关键问题:是否有可能设计一个统一的模型,能够像人类一样全面解决上述所有3D任务?对这个问题的探索不仅挑战了当前3D点云分割的范式,还为机器人感知和交互领域的突破性进展打开了大门。

此外,还引入了一个名为Instruct3D的基准测试集,旨在推动由隐式和复杂指令驱动的分割领域的研究。理解这些微妙的指令需要推理能力和广泛的世界知识。该基准测试集共包含2565对多样化的指令和点云,用于调优和评估。综合实验证明了该基准测试集在评估模型基于类似人类指令的分割能力方面的实用性。SegPoint利用多模态LLM和任务特定提示,能够在统一模型中为各种任务生成分割掩码:1) 3D指令分割,2) 3D指代分割,3) 3D语义分割,以及4) 3D开放词汇语义分割,如图1所示。SegPoint在如ScanRefer(用于指代分割)和ScanNet(用于语义分割)等现有基准测试集上取得了具有竞争力的结果,同时在Instruct3D数据集上表现出色。

总结一下,主要贡献如下:

– 提出了SegPoint,这是第一个能够理解人类意图并在一个框架内解决多个分割任务的三维分割模型,该模型利用了大型语言模型的推理能力。

– 引入了一个几何增强模块,该模块将全面的场景信息整合到三维场景理解过程中。此外,还设计了几何引导特征传播机制,以实现准确且细粒度的分割。这两个模块补充了缺失的局部信息,并捕获了密集预测任务所需的细粒度特征。

– 引入了一项名为“3D指令分割”的新任务,并构建了一个新的数据集Instruct3D,该数据集要求模型具备自我推理能力,以解释隐式指令来分割目标对象。

– 实验结果表明,SegPoint不仅在三维语义分割、指代分割和开放词汇语义分割方面表现出色,而且在3D指令分割方面也展现出了卓越的性能,证明了其在各种分割挑战中的通用性和有效性。

SegPoint整体架构

SegPoint的总体架构如图2所示。SegPoint主要由四部分组成:i) 一个为与文本数据对齐而定制的预训练点编码器E;ii) 一个具有高级推理能力的大型语言模型F;iii) 一个几何增强模块G,负责从输入的点云中提取几何表示,并将这些先验知识注入到点编码器中;以及iv) 一个几何引导特征传播P,这是实现精确掩码生成的关键。几何增强模块与几何引导特征传播之间的协作至关重要,因为它使大型语言模型能够在各种场景下有效地生成掩码。

1)Vanilla Baseline

该框架的输入是文本指令和点云。具体来说,一个点云场景包含N个点,每个点包括三维坐标∈ 和一个辅助特征向量∈ (例如颜色)。点云被输入到点编码器E中,该编码器提取点特征,其中,D为特征维度。同时,文本指令通过进行分词处理。这些准备好的输入随后被输入到大型语言模型F中,产生文本响应y。上述过程可以表述为:

51c自动驾驶~合集8_自动驾驶_31

基于LISA引入的方法,SegPoint通过引入一个新的特殊标记来扩展大型语言模型(LLMs)的词汇,从而增强其分割能力。这一修改使模型能够在输出序列中识别并预测标记,作为识别分割目标的信号。在检测到标记后,将属于标记的相应输出序列提取出来,并通过一个多层感知机(MLP)层γ进行处理,生成掩码嵌入hseg。最后一步是计算每个二进制掩码预测m ∈ R^N,这是通过掩码嵌入与从点特征导出的上采样逐点嵌入进行点积运算来实现的。上述过程的公式表示如下:

51c自动驾驶~合集8_自动驾驶_32

其中,UpS表示在上按照PointNet++进行的上采样操作。原始基线模型代表了一个初步尝试,旨在弥合大型语言模型(LLMs)的文本理解和点云分割任务之间的差距。然而,它遇到了两个主要问题。首先,点编码器是在一个用于分类的场景级数据集上训练的,以实现文本和点云之间的对齐,而不是专门针对密集预测任务进行训练的。此外,点编码器的第一层采用最远点采样(FPS)将点云减少到N1个点,这可能会丢失对于准确密集预测至关重要的细节。其次,直接从N1个点上采样到N个点以获得逐点嵌入的操作容易丢失结构信息并引入相当程度的噪声,从而削弱了模型在分割任务中的有效性。

2)Geometric Enhancer Module

为了使预训练的点编码器适应密集预测任务,同时保持其优越的场景识别能力,本文的目标是利用整个场景中的几何信息来指导进一步的特征学习过程。从二维计算机视觉领域的最新进展中汲取灵感,其中一些研究表明,卷积增强了Transformer捕获局部空间信息的能力,我们引入了几何增强模块(GEM)。该模块专门设计用于捕捉点云中的局部几何上下文,同时保持点编码器的基础架构和信息完整性。

如图3所示,几何增强模块G由三个块组成,每个块都有一个KPConv层,后面跟着BN和ReLU激活函数。该架构类似于二维卷积干。在这里使用KPConv而不是普通的卷积或线性层,以便更有效地捕捉局部几何信息。由此产生的几何特征,由表示,包含了所有点的特征,从而补充了缺失的局部信息。然后,利用这个通过交叉注意力机制将几何洞察力注入到点编码器的特征中,上述过程可以表示为:

51c自动驾驶~合集8_自动驾驶_33

其中, 表示点编码器第  个块的特征,为了解释方便,将连续的  个Transformer层视为一个块。为了微调几何信息的集成,这里引入了一个可学习的门控因子 ,它调节注意力层输出与输入特征  之间的平衡。该门控因子最初设置为零,以确保几何数据的加入不会突然改变 

51c自动驾驶~合集8_自动驾驶_34

3)Geometric-guided Feature Propagation

从稀疏的 N1 个点集上采样得到更密集的 N 个点集的点云处理挑战至关重要,因为直接上采样不可避免地会引入噪声并导致信息丢失,从而在分割任务中导致次优性能。为了缓解这些问题,我们引入了几何引导特征传播(Geometric-guided Feature Propagation),旨在生成高质量的逐点嵌入。几何特征 

如图3所示,首先使用PointNet++的传播技术,从较小的点集N1对更高层的特征f3、f4进行上采样,得到更大的点集N3、N2。这一步产生了特征 和 。随后,利用最远点采样(FPS)技术,将原始点数N的几何特征gf分别下采样到更少的点数N2、N3。在这个过程中,直接获得了采样点的特征,而没有执行额外的k最近邻(k-NN)和池化操作,以简化计算并生成特征 和。

在下一阶段,我们将上采样和下采样的特征进行集成,并通过全连接层和ReLU激活函数处理它们,以更新特征向量f̃3 ∈ R{N3×D} 和f̃4 ∈ R{N2×D}。请注意,最后一层特征f5绕过了这一步。相反,我们将其与LLM输出的ĥpoint进行拼接,形成f̃5,以感知来自LLM的多模态信息。

最后,为了实现不同点密度之间的信息交换,我们提出了注意力传播机制。以从f̃5到f̃4的传播为例。这里,作为一组局部中心。对于f̃4中的每个局部中心,使用k-NN算法从f̃5中找出其邻近点,得到。然后,采用交叉注意力机制,其中f̃4作为查询(query),同时作为键(key)和值(value),以促进不同点密度之间的信息流动,并有效地将相关细节提取到查询点中。

51c自动驾驶~合集8_自动驾驶_35

利用几何引导特征传播,能够生成高质量的逐点嵌入,表示为,这为生成精确的分割掩码奠定了基础,表示如下:

51c自动驾驶~合集8_自动驾驶_36

4) Training Objectives

模型是通过利用文本分类损失和分割掩码损失进行端到端的训练的:

51c自动驾驶~合集8_自动驾驶_37

其中,表示针对文本生成准确性的自回归交叉熵损失,分割掩码损失包括二元交叉熵(BCE)损失和DICE损失,旨在提高分割质量。权重λ、λ和λ用于平衡不同的损失项。模型的训练由文本的真实标签和掩码的真实标签M指导。

5)Instruct3D 数据集收集

尽管3D指令分割和3D引用分割都是基于语言的分割,但3D引用分割通过明确的目标对象名称(如“椅子”)来指导分割,缺乏更复杂的推理指令(如“房间里的座位在哪里?”)。此外,它们还缺乏提供多目标问答对的能力,这些问答对的目标描述直接与多个分割掩码相关联,这无法满足现实场景中的常见需求,如“如何玩电脑游戏”。

为了增强对指令分割能力的评估和分析,我们也开发了一个基准测试集,称为Instruct3D。该基准测试集包含280个场景,这些场景是专门为指令分割调优和评估而精心挑选的,它们来源于最近推出的ScanNet++数据集。每个场景都附有大约10个不同的分割指令,共产生了2,565个指令-点云配对。然后,该数据集被分为两个子集:训练集(train)和验证集(val),分别包含2,052和513个问答对。我们的数据集独特地设计了包含多目标和零目标场景,以应对现实世界中对文本查询做出响应时识别多个对象的需求,并考虑到文本中提到的对象可能不在配对的点云中的情况。此外,我们还考虑了3D场景的特点,并融入了不同的位置和视图描述,例如“工作时用于坐着的东西。它是面向窗户的那一个。”。模型不仅需要具备推理能力,还需要具备在3D场景中感知视图和方向的能力。这些设计凸显了数据集的实际价值。

实验对比分析

数据集。我们的训练数据由两种类型的数据集组成:(1)语义分割数据集,包括ScanNet200和S3DIS;(2)引用分割数据集,包括ScanRefer、ReferIt3D(包括Sr3D和Nr3D)和Multi3DRefer。我们设计了针对特定任务的提示,以便在统一的框架内联合训练各种任务。

评估指标。遵循大多数先前关于3D分割的工作,采用mIoU作为主要评估指标。mIoU定义为所有点云场景交并比(IoU)的平均值。此外,还采用准确率(Acc)作为评估指标,以评估模型是否准确识别出预测IoU大于0.5的目标。

在实验中,除非另有说明,否则我们使用LLaMA2-7B模型作为大型语言模型F,使用Uni3D作为点云处理骨干网络E。训练阶段利用deepspeed引擎提高效率,并采用AdamW优化器指导学习过程。学习率和权重衰减分别设置为0.0003和0,并通过WarmupDecayLR学习率调度器进行增强,该调度器以100次预热迭代开始。投影层γ采用具有[256, 4096, 4096]通道尺寸的多层感知机(MLP)。将平衡权重λtxt_gen、λbce和λdice分别设置为1.0、2.0和2.0。实验采用的总bs为16,分布在4个NVIDIA 80G A100 GPU上,并跨越5000次iter,训练周期约为3天。在训练过程中,利用特定任务的提示。为了在某个特定数据集上进行评估,我们在相应的数据集上对训练好的模型进行微调。