#Open3DWorld

突破感知极限!自动驾驶中的开放3D World

开放词汇感知的能力代表了自动驾驶系统的重大进步,促进了实时整合和解释各种文本输入。尽管对2D计算机视觉中的开放词汇任务进行了广泛的研究,但将这种方法应用于3D环境,特别是在大规模室外环境中,仍然相对不发达。本文提出了一种将激光雷达传感器获取的3D点云数据与文本信息相结合的新方法。主要重点是利用文本数据在自动驾驶环境中直接定位和识别目标。我们引入了一种将鸟瞰图(BEV)区域特征与文本特征融合的有效框架,从而使系统能够无缝适应新的文本输入,并增强开放词汇检测任务的鲁棒性。通过在新引入的NuScenes-T数据集上进行广泛实验,对所提出方法的有效性进行了严格评估,并在Lyft Level 5数据集上对其zero-shot性能进行了额外验证。这项研究通过利用多模态数据来增强3D环境中的开放词汇感知,从而突破了自主导航和感知的界限,为自动驾驶技术的进步做出了重大贡献。

本文介绍了一种新方法,该方法将激光雷达传感器的3D点云与文本数据相结合,以增强自动驾驶的感知能力。通过直接使用文本来定位和识别目标,具体来说提出了一种简单而有效的方法,将鸟瞰图(BEV)区域特征与文本特征融合在一起。本文的方法支持无缝适应新的文本输入,促进了3D环境中强大的开放词汇检测任务。方法命为“Open3DWorld”。本文的贡献有三方面:

支持使用激光雷达文本的3D开放词汇检测任务,使自动驾驶系统能够无缝适应新的文本输入,而无需进行大量的再培训。这种能力对于在多样化和动态的环境中运行至关重要。

提出了一种将3D点云与文本数据集成的新方法,增强了自动驾驶系统的感知能力。通过有效地将鸟瞰图(BEV)区域特征与文本特征融合,我们的方法能够直接从文本输入中准确定位和识别目标。

通过对NuScenes数据集((称为NuScenes-T数据集)的扩展词汇表进行综合实验,证明了我们的方法的有效性,并在Lyft 5级数据集上验证了其zero-shot性能。

相关工作回顾

Open vocabulary:开放式词汇感知是自动驾驶系统的一项基本能力,能够识别和解释训练数据中可能不存在的各种文本输入。YoloWorld和GroundingDINO等方法促进了这一领域的最新进展。YoloWorld是YOLO框架的高级扩展,专门用于通过集成来自大规模语言模型的上下文信息来处理开放词汇任务。接地DINO将文本描述的接地与视觉感知模型相结合,实现了文本和图像数据的精确对齐。

为了训练和验证开放词汇感知的模型,已经使用了几个大规模和各种各样的数据集,包括COCO(上下文中的常见目标)、Objects365(O365)、Golden Gate数据集(GoldG)和300万个概念字幕(CC3M)。这些数据集提供了各种各样的目标类别和注释,促进了2D开放词汇任务的全面训练。对于3D开放词汇任务,3D-OWIS提出了一种新的开放世界3D室内实例分割方法,该方法通过自动标注和生成伪标签,并调整未知类别概率来区分和逐步学习未知类别。OV-3DET提出了一种无需任何3D标注即可完成开放词汇表点云目标检测的方法。在室外场景中,POP-3D通过使用预训练的多模态模型来预测3D Occ。

自动驾驶体素网络中的3D目标检测是第一个为基于激光雷达的3D目标探测引入密集卷积的技术,实现了具有竞争力的性能。PointPillars、PillarNet和PillarNext在这些特征图上使用了BEV的2D密集卷积。SECOND是一项开创性的工作,它使用稀疏CNN提取3D稀疏体素特征,然后将其转换为密集的BEV特征图进行预测。CenterPoint引入了一种基于center的检测头。FSDv1将原始点云划分为前景和背景,然后对前景点进行聚类以表示单个目标。它使用PointNet风格的网络从每个聚类中提取特征,以进行初始粗略预测,并由组校正头进行细化。FSDv2用虚拟体素化模块取代了实例聚类,旨在消除人工设计的实例级表示的归纳偏差。SWFormer提出了一种完全基于transformer的3D目标检测架构。最近,VoxelNeXt通过纯粹基于体素的设计简化了完全稀疏的架构,根据最接近其中心的特征定位目标。

多模态融合对于文本和图像特征对齐,CLIP是无监督跨模态训练的开创性工作。因此,MaskCLIP改进了用于像素级密集预测任务的CLIP,特别是语义分割。用于开放词汇检测的多模态特征融合方法包括YoloWorld,该方法提出了一种视觉语言PAN来融合词汇嵌入和多尺度图像特征。GroundingDINO引入了一个特征增强器和一个语言引导的查询选择模块,采用了类似于Transformer的架构。对于图像和点云特征对齐,BEVFusion首先将图像和点云和数据转换为鸟瞰图(BEV)空间,然后将它们融合。对于室内场景中的文本、图像和点云对齐,OV-3DET提出了Debian跨模式三元组对比度损失。POP-3D通过使用预训练的MaskCLIP模型并采用图像特征作为媒介来建立三种模态之间的联系,从而解决了室外场景的问题。

问题定义

方法论NuScenes-T Dataset

TOD3Cap基于原始标注详细描述了NuScenes数据集中的每个目标。我们使用它来提取描述中的名词主题,经过过滤后,我们得到NuScenes中目标的名词描述,例如“汽车”、“盒子”、“垃圾”。所有名词的分布如图2所示。

通过这种方法,我们获得了比原始NuScenes数据集中更多的类别注释。自动驾驶场景中的一些常见挑战性案例,如“石头”和“盒子”,也包括在我们的新类别中。

Framework Overview

本文提出的方法的总体框架如图3所示,主要由三个部分组成。第一个是特征提取主干,它包括文本和点云特征提取器。第二个组件是鸟瞰图(BEV)特征和文本特征融合模块,它提取文本感知的BEV特征并获得更新的文本特征。最后,最后一个组件是多模态头,它由对比头和定位头组成。总之,我们的方法输出与文本输入相关的目标3D信息,包括目标的空间位置、大小、标题和其他细节。

Feature Extraction

本文的方法可以无缝地适应不同的文本和点云特征提取器。在我们的配置中,我们采用CLIP文本编码器作为文本骨干。对于点云提取器,我们提出了一个基于SECOND的新模块来获取鸟瞰图(BEV)特征,称为“OpenSECOND”。

并使用从外部信息中提取的所有单词。我们使用文本编码器来获取文本输入的嵌入,文本输入的嵌入式表示为,用于提示需要本地化和识别的内容。

对于点云,我们使用点云编码器来获取BEV特征,作为与文本输入的特征空间交互的特征空间。首先将3D空间划分为体素,将原始点云转换为二进制体素网格。随后,将3D稀疏卷积神经网络应用于体素网格进行特征表示。与前面提到的图像特征类似,Z轴 pooling生成了点云BEV特征图B。

BEV-Region Text Fusion Module

在融合多模态特征时,融合模块非常重要。在我们的Open3DWorld中,将其命名为BEV区域文本融合模块,因为它建立了每个BEV网格和每个文本之间的关系,并更新两者以对齐它们的特征空间。我们进行了广泛的实验来探索最适合我们任务的融合模块,并最终设计了图4所示的融合模块。

首先将鸟瞰图(BEV)特征展平,以获得展平的特征和文本特征。为了初步融合多模态特征,我们使用Max Sigmoid Attention Module通过使用文本特征来更新BEV区域特征,其格式为:

51c自动驾驶~合集21_自动驾驶

接下来,我们将更全面地融合BEV和文本特征。首先分别对BEV特征和文本特征进行self-att。考虑到大的BEV网格带来的计算负担,使用可变形的自关注来减少计算负担。接下来首先使用交叉注意力将文本特征聚合到鸟瞰图(BEV)特征中,然后使用交叉注意将BEV特征聚合到文本特征中。最后,我们使用FFN来调整特征维度。与Transformer中的编码器块一样,此融合过程执行N次。我们通过实验实现了N等于3,以实现效果和计算负担之间的平衡。

Contrastive Head and Localization Head

对于Contrastive head,使用几个conv来获得最终的BEV网格特征。接下来,我们使用以下公式计算每个BEV网格和文本之间的相似度,表示第i个BEV网格与第j个文本之间的相似性:

51c自动驾驶~合集21_自动驾驶_02

对于定位头,我们与传统的3D检测任务保持一致,并对所有信息进行回归,包括目标的空间位置、大小、航向和其他信息。我们的优势在于,基于与文本特征集成的边界元法特征来预测信息,因此更容易预测某个类别的属性。

Training and Evaluation

在获得BEV网格和文本之间的相似性图后,我们分两步获得GT热图。首先,我们将3D GT框投影到BEV特征图上,从而产生旋转框。例如,我们将一个3D盒子投影到BEV featmap中:

51c自动驾驶~合集21_自动驾驶_03

其次使用类似于YoloWorld的样本分配方法来获得H。最后使用交叉熵损失来监督训练,其格式为:

51c自动驾驶~合集21_自动驾驶_04

51c自动驾驶~合集21_自动驾驶_05

在评估过程中,在生成BEV网格和文本输入之间的相似性图(表示为S)后,我们应用预定义的分数阈值。如果BEV网格和相应文本之间的相似性得分超过此阈值,则网格被视为文本描述的目标的中心。然后通过提取相应网格的3D信息来识别和定位目标。最后,我们应用非最大抑制(NMS)来过滤和细化检测。

实验实验和分析

通过外部描述信息扩展词汇表,我们在NuScenes-T数据集上训练Open3DWorld,使其能够完成与之前的3D检测模型类似的检测任务。由于我们的词汇表包括检测任务的封闭集合中的类别,因此我们可以计算出类似于标准3D检测任务中的定量指标。

我们的检测精度可与专业的3D检测模型相媲美,无需采用额外的训练技术来提高性能。这是有意的,因为我们的主要目标是开发一个能够无缝集成新文本信息的通用开放词汇模型。Nussenes-T数据集的测试结果如表1所示。

Zero-Shot Performance:为了评估零样本性能,在Lyft Level 5数据集上运行了Open3DWorld。结果2表明,融合模型利用BEV特征和文本特征,可以在理论上对齐以实现分类。众所周知,在点云目标检测领域,当我们使用在一个数据集上训练的模型在另一个数据集中进行测试时,模型会崩溃。我们的方法不需要训练,可以在Lyft Level 5数据集上获得初步结果,这表明在文本特征和BEV特征对齐后,泛化能力远优于传统的检测模型。

讨论

从实验中获得的结论强调了所提出的融合模型的优缺点。3D点云和文本数据的集成显著提高了检测精度;然而,目前开放词汇类别的收集在数量和质量上仍然有限。与基于图像的开放词汇检测领域现有的数万个类别相比,我们的数据集需要进一步扩展。此外不同类别的比例不平衡,这对模型的性能产生了负面影响,特别是在长尾类别上。

为了应对这些挑战,未来的工作将侧重于自动收集开放词汇表数据注释或采用无监督的方法来训练模型,使其能够在现实世界场景中管理更广泛的类别。此外,未来的研究将探索其他数据模式的集成,并开发更先进的融合技术,以进一步增强自动驾驶环境中的目标检测能力。

结论

本文介绍了一种在自动驾驶中进行3D开放词汇检测的新方法,该方法利用了激光雷达和文本数据的融合。我们的方法使智能驾驶汽车能够适应新的文本输入,而不需要进行广泛的再训练,从而增强了它们在多样化和动态环境中运行的能力。通过将3D点云与文本数据集成,我们的方法直接从文本查询中改进了目标定位和识别。我们的框架的有效性已经通过在NuScenes-T数据集上的广泛实验得到了证明,并在Lyft Level 5数据集上得到了验证,展示了它在现实世界场景中的鲁棒性和多功能性。通过推进多模态数据的集成,这项工作有助于开发更安全、更可靠、更高效的自动驾驶系统,为未来更具适应性和智能的感知模型铺平了道路。




#HeightLane
车道线还有的卷?超越BEV-LaneDet等一众SOTA!

单目图像的准确3D车道线检测面临重大挑战,主要由于深度信息的歧义性和地面建模的不完善。以往的研究通常采用具有有限自由度的平面地面假设进行地面建模,这在复杂道路环境中,尤其是存在不同坡度的情况下,显得力不从心。本研究提出了一种名为HeightLane的创新方法,它基于多斜率假设创建锚点,从单目图像中预测出高度图,从而提供对地面的详细和精确表示。HeightLane结合了预测出的高度图和基于可变形注意力机制的空间特征转换框架,高效地将2D图像特征转换为3D鸟瞰视图(BEV)特征,增强了空间理解力和车道结构识别能力。此外,高度图还被用于BEV特征的位置编码,进一步提升了空间精度。这种显式视图转换方法有效地弥合了前视感知与空间精确的BEV表示之间的差异,显著提高了检测性能。为了解决原始OpenLane数据集中缺少必要的地面真实高度图的问题,作者利用Waymo数据集的LiDAR数据,为每个场景的可行驶区域生成了高度图。使用这些真实高度图训练了从单目图像中提取高度图的模块。在OpenLane验证集上的广泛实验表明,HeightLane在F-score等指标上达到了最先进的性能,展示了其在现实世界应用中的潜力。

相关工作总结 3D车道检测

3D车道检测对于现实驾驶场景中的准确定位至关重要。虽然2D车道检测已经得到了广泛的研究,但关于3D车道建模的却相对较少。传统的方法通常使用逆透视变换(IPM)将2D特征转换到3D空间,基于道路平坦的假设。然而,这种假设在遇到斜坡或下坡等不平坦地形时会失效,导致特征表示扭曲和可靠性降低。

SALAD通过结合前视图图像分割与深度估计来解决3D车道检测问题,但它依赖于密集的深度注释和精确的深度预测。此外,远处车道因显得较小,每个像素覆盖的深度范围更广。M2-3DLaneNet通过融合LiDAR数据增强单目3D检测,将图像特征提升至3D空间,并在鸟瞰视图(BEV)空间中融合多模态数据,但这增加了数据收集的复杂性和成本。DV-3DLane同样使用LiDAR和相机输入进行3D车道检测,但它从两种来源生成车道查询,而非提升图像特征。

与此同时,BEVLaneDet采用视图关系模块学习图像特征与BEV特征之间的映射,要求两者之间的关系固定。该论文引入了一种虚拟坐标,始终使用特定的外参矩阵和内参矩阵来调整图像。此外,它不是使用BEV特征的锚点,而是提出一种在BEV上直接预测车道的关键点表示法。LATR和Anchor3DLane通过将地面假设为具有2个自由度(2-DoF)的平面,在3D车道检测方面取得了最新进展。

LATR使用地面建模作为变换器中的位置编码,预测地面的俯仰角和高度;而Anchor3DLane则利用俯仰角和偏航角进行2D特征提取。与此不同,作者的方法HeightLane在BEV空间中仅使用LiDAR创建地面真实高度图。与M23DlaneNet不同,后者在推理过程中需要同时使用LiDAR和相机数据,而HeightLane仅依赖相机数据简化了推理过程。作者的方法不是用2-DoF对地面进行建模,而是预测预定义BEV网格中每个点的高度,创建了一个密集的高度图。通过采样专注于地面的空间特征,作者生成了BEV特征,允许使用关键点表示法进行准确的3D车道预测,有效地桥接了2D图像数据和3D车道几何学。这种方法优化了空间特征的处理,在保持高精度的同时提高了效率。

鸟瞰视图高度建模

BEVHeight引入了一种新颖的方法,将深度估计中使用的深度分箱技术应用到高度概念上。这种方法通过对图像中的物体高度箱进行分类,首次提出了一种回归方法,用于确定3D目标检测中物体与地面之间的高度。然而,该方法的实验仅限于路边相机数据集,限制了研究的应用范围。BEVHeight旨在通过利用物体的高度信息,提供更精确的3D位置信息。

另一方面,HeightFormer利用Nuscenes自动驾驶数据集,尝试回归物体与地面之间的高度。HeightFormer将预测的高度信息整合到变换器的解码器中,与基于深度的方法相比,实现了性能的提升。这一改进展示了利用高度信息进行更准确3D目标检测的潜力。

作者提出的方法HeightLane,利用了车道始终附着在地面上的特性。通过仅预测相对于地面的高度,HeightLane显式地将图像特征转换到对应于地面的预定义BEV网格中。这种方法简化了任务,旨在提高3D目标检测中空间转换的准确性。

HeightLane方法详解

作者提出的HeightLane整体架构展示于图2。输入一个RGB前视图图像   ,其中    和    分别代表图像的高度和宽度。利用ResNet-50作为CNN骨干网络提取前视图特征   。定义一个与自我车辆相对应,代表地面的预设BEV网格   ,其中    和   

图 2. HeightLane方法的总体架构图。HeightLane接收一个2D图像作为输入,并通过卷积神经网络(CNN)主干提取多尺度的前视图特征。利用预定义的多斜率高度图锚点、车辆坐标到相机坐标的外参矩阵    以及相机的内参矩阵   ,将2D前视图特征采样到鸟瞰视图(BEV)网格上,以形成BEV高度特征。随后,该BEV高度特征通过一个CNN层进一步处理,以预测高度图。预测出的高度图用于空间特征的转换,其中初始的BEV特征查询和高度图共同确定了查询在前视图特征中应参考的像素点。在这个过程中,前视图特征充当键和值,而BEV特征则作为查询。通过可变形注意力机制,这一流程最终生成了增强的BEV特征查询。

基于PersFormer研究的洞察,作者提出了一种高度图引导的空间特征转换框架。该框架基于观察到的2D前视图特征可以作为键和值,而BEV特征可以作为查询在可变形交叉注意力中使用。与PersFormer研究假设地面为平面并使用IPM将前视图特征转换为BEV特征查询不同,本方法使用在预定义BEV网格内预测的高度图,允许作者匹配每个BEV特征查询与相应的前视图特征,不依赖于地面平坦的假设。这使得可变形注意力的执行更加高效。这些转换后的BEV特征   

高度提取模块 高度预测

高度图    的分辨率为每像素0.5米,表示从车辆位置向前    米和向两侧各    米范围内的高度信息,其中高度值为零。与直接从前视图特征预测路面的其他研究不同,作者首先定义了一个密集的BEV网格   ,然后预测这个网格内所有对应点的高度图   。这需要创建BEV特征,这些特征来源于2D前视图特征,以准确捕获高度信息。例如,生成一个斜率为零的高度图锚   ,用作获取BEV网格    的3D坐标。然后,使用内参矩阵和外参矩阵将这个高度图锚投影到图像上,采样对应于BEV点的前视图特征。投影高度图锚   

其中,   和    分别表示相机内参矩阵和从自我车辆坐标到相机的变换矩阵,  

与投影的    一起,从高度图特征    中采样前视图特征   

其中    表示多个斜率。如果实际道路在图像中存在斜率,使用单一斜率锚无法确保图像特征与BEV网格之间的对齐。为此,作者使用多斜率高度锚进行采样,然后将这些特征连接起来形成最终的BEV高度特征   。利用   ,可以预测高度图   :

其中    并且   

高度监督

由于OpenLane数据集缺乏地面点云或标签信息,现有研究主要集中在仅包含车道的区域进行数据创建和监督。LATR只在有车道的区域应用损失以估计地面的俯仰角和高度。类似地,LaneCPP通过在车道存在区域插值结果来模拟地面。为了提供密集的高度图真实标注,作者使用Waymo数据集中的LiDAR点云,这是OpenLane的基础数据集。通过累积Waymo数据中每个场景的可行驶区域的LiDAR点云,获得了每个场景的密集地面点云。然后,将这个密集地面点云采样到预定义的BEV网格    上,并用作高度图   

图 3. 在OpenLane验证集中展示的“上坡和下坡”场景下,LiDAR数据累积的结果。左侧的颜色条表示与道路高度相对应的颜色值。

高度引导的空间变换框架

作者提出的空间变换框架利用第3.1节预测的高度图,如图4所示。BEV初始查询经过自注意力模块处理,在自注意力过程中,BEV查询之间进行交互,并为每个BEV查询添加位置编码以提供位置信息。位置编码是可学习的参数。与在2D FV特征上执行注意力的研究不同,作者的方法使用BEV网格坐标和每个BEV查询的高度嵌入进行位置编码。

图 4. 使用可变形注意力的高度引导空间变换框架结构图。该框架展示了BEV查询如何在自注意力阶段接收高度位置编码,并在交叉注意力阶段通过高度图映射到图像像素。可变形注意力学习了从参考点到周围区域的偏移,以生成多个参考点。

自注意力模块输出的查询    在第   

其中    是层索引,  

经过自注意力处理的BEV查询    与2D前视图特征执行可变形交叉注意力。可变形注意力为每个查询定义了参考点    并学习从这个参考点到周围区域的偏移。这些可学习的偏移决定了最终的参考点,并且在前视图特征    中与这些最终参考点对应的特征作为交叉注意力中的值与BEV查询相互作用。由于作者有对应于BEV网格的高度图   ,作者可以精确地确定每个BEV网格像素将被投影到前视图特征中的参考点   ,如下所示:

经过交叉注意力处理的查询    在第   

HeightLane中的空间变换由多个层组成,每层都包含自注意力和交叉注意力模块。实验中,作者将层数设置为   。通过所有    层的BEV查询成为车道检测头部的输入特征。为了捕获不同分辨率的前视图特征,作者采用了多尺度前视图表示。为每种分辨率生成一个BEV查询,最终的BEV特征   

训练

通过空间变换框架生成的    会经过几层卷积网络,预测BEV网格的置信度、偏移和嵌入,遵循BEVLaneDet的关键点表示法。预测的密集高度图    被用作3D车道的表示,连同置信度、偏移和嵌入。置信度   

其中,BCE表示二元交叉熵损失,IoU代表交并比损失。

车道在x方向上的预测偏移损失定义为:

在[22]中,每个网格单元的嵌入被预测以区分置信度分支中每个像素的车道身份。作者采用了相同的嵌入损失,如公式(10)所示,其中    表示拉力损失,用于最小化类内方差,而   

预测的高度图    与真实高度图   

为了确保2D特征有效地捕获车道特征,作者增加了一个2D车道检测头,并结合了一个辅助损失用于2D车道检测,如公式(12)所示:

最终,总损失由公式(13)定义,其中   

这个损失函数综合了置信度损失、偏移损失、嵌入损失、高度图损失和2D车道检测损失,以优化整个网络的性能。

实验结果和分析 数据集

作者的方法在OpenLane数据集上进行了评估,该数据集覆盖了多样的道路条件、天气状况和照明环境。OpenLane建立在Waymo数据集基础之上,使用了150,000张图像用于训练,40,000张图像用于测试。该数据集包含798个训练场景和202个验证场景,每个场景大约包含200张图像。尽管OpenLane数据集本身不包含生成高度图所需的信息,但由于其基于Waymo数据集构建,作者能够从中提取每个OpenLane场景所需的LiDAR数据。在提取LiDAR数据的过程中,作者注意到数据在每个场景的中部密集,而在末端帧则变得稀疏。例如,图3展示了一个场景,其中车辆启动、上坡、右转,并继续行驶在另一段坡道上。在起始点(绿色区域),LiDAR数据较为稀疏,因此作者采用了双线性插值来填补高度图中的空隙,以确保高度图的一致性。作者的评估包括了多种场景,如上坡/下坡、曲线、极端天气、夜间、交叉口以及合并/分流等条件。评估指标包括F分数、近端和远端的X误差以及Z误差。

实现细节

作者采用了ResNet-50作为2D特征提取的骨干网络,并将图像尺寸设定为576×1024像素。为了获得多尺度的图像特征,作者增加了额外的CNN层,以产生尺寸为输入图像1/16和1/32的特征图,每个特征图具有1024个通道。高度图和BEV特征的BEV网格尺寸被设置为200×48像素,分辨率为每像素0.5米。在高度提取模块中,作者为多斜率高度图锚点设置了-5°、0°和5°的斜率Θ。在5°的斜率下,高度图能够表示高达约8.75米的高度。在高度引导的空间特征转换中,作者使用了具有2个注意力头和4个采样点的可变形注意力机制。位置编码是通过嵌入BEV网格的X和Y位置以及相应的预测高度来生成的。

在OpenLane上的评估 定性结果

图5展示了OpenLane验证集上的定性评估结果。作者的方法HeightLane、现有的最佳性能模型LATR以及地面真实值的预测结果被可视化展示。其中,地面真实值用红色表示,HeightLane用绿色表示,LATR用蓝色表示。图5的第一行展示了输入图像,第二行展示了在3D空间中HeightLane、LATR和地面真实值的可视化对比。第三和第四行分别从Y-Z平面视角展示了HeightLane与地面真实值、LATR与地面真实值的3D车道对比。

图 5. 在OpenLane验证集上,与现有最佳性能模型LATR相比,作者的方法HeightLane的定性评估结果。第一行:输入图像。第二行:3D车道检测结果 - 真实值(红色)、HeightLane(绿色)、LATR(蓝色)。第三行和第四行:从Y-Z平面视角展示的真实值与HeightLane、LATR的对比。放大可查看更多细节。

特别是,HeightLane即使在车道中断后再次出现的场景中,如交叉口或减速带上方,也能准确检测到车道。这一点在图5的第1、2、4、5和6列中尤为明显。例如,在第1列中,尽管存在车辆遮挡和部分车道标记不完整,HeightLane仍然能够提供精确的车道预测,证明了其在处理具有遮挡和信息不完整的复杂场景中的鲁棒性。此外,借助高度图的使用,HeightLane有效地模拟了道路坡度的变化,如图3所示,道路从平坦过渡到有坡度的情况。在展示曲线道路和部分可见车道的第2和5列中,HeightLane展示了其在曲线上维持连续车道检测的优越预测精度和性能。

图6可视化了高度提取模块预测的高度图,从左到右依次为输入图像、预测高度图和地面真实值高度图。场景从上到下依次为上坡、平地和下坡路段,更多可视化结果可在补充材料中找到。

图 6. 高度提取模块的可视化结果。从左至右依次为:输入图像、预测的高度图和真实值高度图。图像展示了上坡、平地和下坡的场景。

定量结果

表1展示了HeightLane在OpenLane验证集上的定量评估结果。作者的模型在总体F分数上达到了62.5%,超越了所有现有的最先进模型。特别是在极端天气、夜间和交叉口等具有挑战性的场景中,HeightLane实现了显著的性能提升,并在这些条件下取得了最佳成绩。此外,HeightLane在曲线和合并/分流场景中也展现了强劲的性能,获得了这些类别中的第二佳表现。尽管在持续上坡或下坡的场景中,HeightLane的表现不是最佳,因为在这些情况下,2-DoF平面假设已经足够。然而,HeightLane在斜率变化的场景中表现出色,如图5第3列所示,证明了其在处理变化坡度条件下的适应性和预测能力。

表 1. 在OpenLane验证集的不同场景下,使用F分数对不同方法进行的定量结果比较。每个场景中最佳和次佳结果分别用粗体和下划线标出。

表2展示了Openlane验证集上的F分数、X误差和Z误差的定量比较结果。HeightLane在F分数方面取得了最佳成绩,超越了其他所有模型,达到了62.5%。虽然在Z误差方面并未达到最佳或第二佳的表现,但仍然展示了具有竞争力的结果。在X误差方面,HeightLane实现了第二佳的性能,证明了其在横向方向上准确估计车道位置的能力。

表 2. 在OpenLane验证集上,与其他模型的定量结果比较。评估指标包括F分数(越高越好)、近端和远端的X误差与Z误差(越低越好)。最佳和次佳结果分别用粗体和下划线标出。

消融实验

表3展示了不同高度提取方法对应的F分数。视图关系模块,最初在[18]中提出,并在[22]中作为一个MLP模块用于转换BEV特征。单斜率高度图锚点方法将零高度平面投影到图像上,并使用从该平面采样的图像特征作为BEV特征。然而,这种方法假设地面是平坦的,并且仅在该高度处采样2D图像特征,导致特征表示不完整。相比之下,作者提出的多斜率高度图锚点方法在图像上投影了具有不同斜率的多个平面,从每个平面采样图像特征,并将它们融合以形成BEV特征。这种多锚点方法实现了最高的F分数。

表 3. 根据不同的高度提取方法得到的F分数比较。表格中标粗的配置表示作者最终采用的方案。

表4展示了不同高度图锚点设计对应的F分数。第一行对应于表3中的单斜率高度图锚点。当使用0°加上±3°时,性能比仅使用0°提高了4.5%。同样,使用0°加上±5°时,性能提升了6.3%。尽管0°、±3°和±5°的配置实现了最佳性能,但与仅使用0°和±5°相比,性能提升的边际效应较小。然而,增加高度图锚点的数量会增加最终BEV高度特征中的通道数,从而增加计算成本。为了在性能和计算效率之间取得平衡,作者最终选择了0°和±5°高度图锚点的配置作为论文中的最终方法。

表 4. 根据不同高度图锚点设计得到的F分数比较。表格中标粗的配置表示作者最终采用的方案。

表5将作者的方法与各种多模态3D车道检测器进行了比较。其中,Ours (GT)表示在推理步骤中使用真实高度图代替高度提取模块获得的结果。这种替代旨在观察在假设高度提取模块预测的高度图非常准确的情况下,空间特征变换框架的性能。通过使用从LiDAR数据获得的真实高度图,作者可以与使用LiDAR输入的检测器进行公平的比较。结果表明,当高度图预测准确时,作者的HeightLane方法能够实现与使用LiDAR和相机输入的模型相当或甚至更好的性能。这证明了作者方法的潜力,能够有效地利用精确的高度信息,突出了作者在2D图像数据和3D车道几何转换中的鲁棒性和能力。

表 5. 与多模态模型在OpenLane验证集上的比较结果。“Ours (GT)”表示在推理阶段使用真实高度图代替预测的高度图。其中,M代表仅使用相机数据,ML代表同时使用相机和LiDAR数据。

结论

作者的研究工作通过提出一种创新的高度图方法,成功克服了单目图像中3D车道检测面临的主要挑战,包括深度信息的不确定性和地面建模的不完善性。作者的主要贡献包括:

定义了一个用于直接从图像中预测高度信息的鸟瞰视图(BEV)网格和多斜率高度锚点。

提出了一个由高度图引导的空间特征转换框架。

在OpenLane数据集的复杂场景中,实证展示了作者的HeightLane模型的卓越性能。

本研究所提出的方法通过高度图增强了对空间结构的理解和车道的识别能力,显著提升了自动驾驶车辆系统的技术水平。通过精确的3D变换,这些技术进步为自动驾驶领域的发展提供了强有力的支持。作者通过广泛的实验验证了模型的有效性,这标志着在将3D车道检测技术应用于现实世界场景方面迈出了重要的一步。




#CrossFormer
加州大学最新!适用于操作、导航、运动的统一策略

原标题:Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

论文链接:https://arxiv.org/pdf/2408.11812

项目链接:https://crossformer-model.github.io/

代码链接:https://github.com/rail-berkeley/crossformer

作者单位:加州大学伯克利分校 卡内基梅隆大学

论文思路:

现代机器学习系统依赖于大规模数据集来实现广泛的泛化,而这在机器人学习中往往是一个挑战,因为每种机器人平台和任务可能只有一个小数据集。通过在多种不同类型的机器人上训练单一策略(single policy),机器人学习方法可以利用更广泛和多样化的数据集,从而实现更好的泛化和鲁棒性。然而,在多机器人数据(multi-robot data)上训练单一策略具有挑战性,因为机器人可能具有截然不同的传感器、执行器和控制频率。本文提出了CrossFormer,一种可扩展且灵活的基于Transformer的策略,能够处理来自任何实体(embodiment)的数据。本文在迄今为止最大和最具多样性的数据集上训练了CrossFormer,该数据集包含了来自20种不同机器人实体的90万条轨迹。本文展示了相同的网络权重可以控制截然不同的机器人,包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。与以往的工作不同,本文的模型不需要手动对齐观测空间或动作空间。大量现实世界中的实验表明,本文的方法不仅能匹配为每个实体量身定制的专用策略的性能,还显著超越了现有的跨实体学习(cross-embodiment learning)的最先进方法。

论文设计:

近年来,机器学习的许多成功都得益于在日益多样化和多任务数据上训练通用模型。例如,视觉和语言任务,曾经由特定任务的方法处理,如今通过通用的视觉-语言模型能够更有效地完成,这些模型可以在任务之间迁移知识 [1, 2, 3, 4]。类似地,在机器人领域,最近的数据聚合工作 [5] 使得可以在跨多个实体、任务和环境的机器人数据上训练通用策略(general-purpose policies)。这些通用策略通过迁移视觉表示和技能,能够超越那些仅使用目标机器人和任务数据训练的狭窄策略(narrow policies) [6, 5]。除了正迁移(positive transfer)带来的好处之外,训练通用的跨实体策略还减少了为每个机器人设计和调整策略架构所需的工程工作量。

然而,训练通用的机器人策略具有独特的挑战性,因为机器人系统在相机视角、本体感知输入(proprioceptive inputs)、关节配置、动作输出和控制频率等方面可能存在极大的差异。最初在大规模跨实体策略训练上的努力通常局限于单一的机械臂或地面导航机器人,这些机器人可以通过单一的相机视角和基座或末端执行器的相对航点动作进行控制 [5, 6, 7, 8]。要进一步增加这些策略所能控制的实体的多样性,就需要一种支持任意数量的相机视角或本体感知观测,以及预测任意维度动作的模型架构。遵循以往的工作,本文采用了顺序建模的方法来进行跨实体模仿学习 [9, 10]。本文提出了一种基于Transformer的策略,通过将输入和输出转换为序列来支持可变的观测和动作。本文将这一方法扩展到目前为止能够用单一策略控制的最为多样化的实体集,包括单臂和双臂机器人、地面导航机器人、四旋翼飞行器和四足机器人。

通过本文的Transformer策略,本文可以通过简单地将观测数据 tokenizing 并排列成序列,来训练具有任意数量相机视角或本体感知传感器的机器人数据。同时,本文可以预测任意维度的动作,关键是无需手动对齐不同实体的动作空间 [8]。对于每种动作类型,本文将一组动作读取tokens(action readout tokens)插入到输入 token 序列中。然后,本文将相应的输出嵌入传递到特定于动作空间的头部,以生成正确维度的向量。本文的策略可以接受以语言指令或目标图像形式呈现的任务,使用户能够选择最适合特定实体的任务模式。

本文的主要贡献是一种跨实体的机器人策略,该策略在迄今为止最大、最具多样性的机器人数据集上训练完成,包含90万条轨迹和20种不同的实体。本文的策略能够控制具有不同观测和动作类型的机器人,从具有本体感知传感器和12个关节的四足机器人,到配备3个相机和14个关节的双臂机器人。在大量的现实世界实验中,本文发现本文的策略能够匹敌仅在目标机器人数据上训练的相同架构的性能,以及在每种设置中表现最佳的现有方法,这表明本文的架构能够吸收异构的机器人数据而不会产生负迁移,同时在性能上可以媲美为每个机器人量身定制的最先进的专用方法。此外,本文还发现,本文的方法在跨实体学习中优于现有的最先进方法,同时减轻了手动对齐观测空间和动作空间的需求。

在多种实体的机器人学习中,主要挑战在于处理观察空间和动作空间的巨大差异,以及控制频率和机器人系统其他方面的差异。机器人系统可能具有不同数量的相机视角或本体感知传感器,并且可能通过多种不同的动作表示进行控制,包括关节角度、笛卡尔坐标位置和电机扭矩。为了将数据标准化为统一的格式,以往一些关于跨实体策略训练的工作忽略了某些观察类型(例如操作中的腕部视角或第三人称视角)[5, 7],或在机器人之间对齐了动作空间[8]。而本文则遵循其他相关研究[9, 10, 6],将跨实体模仿学习视为一个序列到序列的问题,并选择了基于Transformer的策略架构,以处理长度可变的序列输入和输出。

由于Transformer策略的序列化特性,本文可以将每种实体的所有可用观察类型编码为一个扁平的序列。同样地,这种方法允许本文解码可变长度的动作,使本文能够为每种实体使用最佳的动作类型。利用这种灵活的输出方式,本文还可以预测不同大小的动作块。动作块化(Action Chunking)[48, 47, 49]能够提高动作的时间一致性,并减少累积误差,这对于高频率的精细操作尤为重要。结合Transformer骨干网络和动作块化技术,本文的策略能够控制从使用20Hz关节位置控制的双臂ALOHA系统,到使用5Hz二维航点控制的地面和空中导航机器人等多种机器人。

从总体上看,本文的Transformer策略遵循了以往在多模态数据上训练Transformers的研究[9, 10, 6]。具体来说,观察数据和任务规范首先通过特定模态的分词器进行分词处理,然后组装成一个token序列,并输入到一个因果性的、仅解码器的Transformer骨干网络中,这个网络在所有实体之间共享。接下来,输出的嵌入向量会被输入到为每类实体设计的独立动作头中,以生成对应维度的动作。有关本文架构的概览,请参见图2。接下来,本文将更详细地描述本文的训练数据以及架构的各个组成部分。

图1:本文介绍了CrossFormer,这是一种基于Transformer的策略,经过在90万条多样化、多实体机器人数据轨迹上的训练,能够控制截然不同的机器人,包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人,同时在性能上匹敌针对每个实体的专用策略,并在跨实体学习中优于以往的工作。

图2:策略架构。本文的架构通过Transformer主干网络实现跨实体策略学习。本文的策略通过将图像和本体感知信息 tokenizing 来接收可变的观测输入,通过动作读取tokens(action readout tokens)预测可变的动作输出,并基于语言指令或目标图像进行条件判断。

实验结果:

图3:训练数据组合。本文将训练数据中的20种实体分为不同类别,并可视化它们在数据组合中的贡献。饼图显示了每个训练批次中基于采样权重的平均组成情况。

图4:评估设置。本文的任务包括单臂操作设置、灵巧和双臂任务设置、导航以及航空任务。详细分类请参见第4节。

图5:实际评估。本文将CrossFormer与仅在目标机器人数据上训练的相同架构进行比较,同时也与在目标机器人数据上表现最佳的现有方法进行对比。

图6:与Yang等人[8]的比较。本文将CrossFormer与Yang等人[8]的方法进行比较,该方法对导航和操作任务的动作进行对齐,并且一次只使用单一相机视角。CrossFormer在整体表现上优于Yang等人[8]三倍,无论是在使用第三人称相机视角进行的桌面操作任务上,还是在常见的导航任务中,均表现出色。

总结:

本文引入了CrossFormer,这是一种可扩展且灵活的Transformer策略,基于迄今为止最大且最为多样化的数据集进行训练,包括20种不同机器人实体的90万条轨迹。本文展示了一种系统化的方法来学习单一策略,该策略能够控制截然不同的实体,包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。本文的结果表明,CrossFormer的表现与专门针对单一实体的策略相媲美,同时在跨实体学习中显著优于当前的最先进方法。

然而,本文的工作也存在一些局限性。本文的结果尚未显示出在不同实体之间的显著正迁移效应。本文预计,随着本文在更大、更具多样性的机器人数据集上进行训练,本文将看到更大的正迁移效应。另一项局限性是,本文的数据组合使用了人工挑选的采样权重,以避免在包含大量重复情节的数据集上过度训练,或在与本文的评估设置最相关的数据上训练不足。原则上,随着模型规模的扩大,策略应具备同等良好地拟合所有数据的能力,而无需进行数据加权。

最后,由于本文需要大型模型来适应大规模的多机器人数据集,模型的推理速度可能成为一个限制因素。在本研究中,本文成功地将本文的策略应用于高频率、细粒度的双臂操作任务中,但随着模型规模的扩大,本文可能无法控制这些高频率的实体。未来的硬件改进将有助于缓解这一问题,但在如何利用大型模型来控制高频率机器人方面仍需进一步研究。

未来的工作还可以包括探索技术以实现更大的跨实体正迁移,同时保持本文架构的灵活性、改进数据管理技术,并引入更多样化的数据源,如次优的机器人数据或无动作的人类视频。本文希望这项工作能够为开发更通用且灵活的机器人策略打开大门,使其能够有效地从在不同机器人实体上收集的经验中学习并迁移知识。