编辑 | 自动驾驶之心
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
大规模数据集推动了基于人工智能的自动驾驶车辆研究的近期进展。然而,这些数据集通常是从单一车辆一次性通过某个地点收集的,缺乏多代理交互或对同一地点的多次穿越。这类信息可能导致自动驾驶车辆的感知、预测和规划能力的变革性提升。
为了弥补这一差距,作者与自动驾驶公司 May Mobility 合作,推出了MARS数据集,该数据集统一了支持多代理、多次穿越和多模态自动驾驶车辆研究的环境。更具体地说,MARS是通过一队自动驾驶车辆在特定地理区域内行驶时收集的。每辆车都有自己的路线,不同的车辆可能会出现在附近的位置。
每辆车都配备了激光雷达和全景RGB摄像头。
作者在MARS中精心策划了两个子集:一个促进多辆车同时出现在同一地点的协作驾驶,另一个通过多辆车异步穿越同一地点来实现记忆回顾。
作者在地点识别和神经重建方面进行了实验。更重要的是,MARS引入了新的研究机会和挑战,如多次穿越的3D重建、多代理感知和无监督物体发现。
作者的数据和代码可以在https://aitce.github.io/MARS/找到。
1 Introduction
自动驾驶技术有望从根本上提高道路安全性和交通效率,近年来通过人工智能技术取得了显著进展。大规模、高质量的实时数据对人工智能驱动的自动驾驶车辆(AVs)提高其感知和规划能力至关重要[1, 15]:AVs不仅可以从标注数据集中学习检测目标[16],还可以基于过去的驾驶记录生成数字孪生,以创建安全关键情景[17]。
开创性的KITTI数据集[1]为检测和跟踪等任务设立了最初的基准。自其推出以来,已有许多数据集被提出以促进自动驾驶的发展;见表1。
两个具有代表性的数据集是nuScenes[8]和Waymo数据集[9],它们引入了从相机和测距传感器收集的多模态数据,提供了360度全景视野的场景理解。这些数据集将关注点从KITTI的单目相机转移开,受到了视觉和机器人学领域的广泛关注。
现有的驾驶数据集通常关注地理和交通多样性,但没有考虑到两个实际维度:多代理(协作)和多遍历(回顾)。协作维度强调了位于同一空间区域内的多辆车之间的协同作用,促进它们在感知、预测和规划方面的合作。回顾维度使车辆可以通过利用之前访问同一地点的视觉记忆来增强其3D场景理解。融合这些维度可以解决在线感知的感测能力有限和离线重建视角稀疏等问题。然而,现有的数据集通常是由单个车辆在一次特定地理位置的遍历中收集的。为了推进自动驾驶车辆的研究,尤其是在协作和回顾维度上,研究界需要一个更全面的、真实驾驶场景下的数据集。为了填补这一空白,作者推出了Open MARS 数据集,它提供了多代理、多遍历和多模态记录,如图1所示。所有记录都来自May Mobility1在密歇根州安娜堡运行的自动驾驶车辆。多代理。作者部署了一支自动驾驶车队在一个指定的地理区域内导航。这些车辆可以同时处于同一地点,允许通过车辆间通信进行协作3D感知。
多遍历。作者在相同的空间区域内捕获了多次遍历,这些遍历在不同的光照、天气和交通条件下进行。每次遍历可能遵循独特的路线,覆盖不同的驾驶方向或车道,从而产生多条轨迹,提供了3D场景的多样化视觉观察。多模态。作者为自动驾驶车辆配备了具有360度全景视野的RGB相机和激光雷达。这套全面的传感器套件能够实现多模态和全景场景理解。
作者在位置识别和神经重建方面进行了定量和定性实验。更重要的是,MARS为视觉和机器人学社区引入了新的研究挑战和机遇,包括但不限于多代理协作感知和学习、重复遍历下的无监督感知、持续学习和多代理或多遍历的神经重建及新颖视图合成。
2 Related Works
自动驾驶数据集。 高质量的数据集对推进人工智能驱动的自动驾驶研究至关重要[18, 19, 8]。开创性的KITTI数据集在机器人感知和地图绘制领域引起了广泛关注。从那时起,大量数据集被提出,通过解决多模态融合、多任务学习、恶劣天气和密集交通等挑战,推动了该领域的发展。近年来,研究行人提出多智能体协作以摆脱单一智能体感知的限制,例如频繁的遮挡和远距离稀疏性。以前在整理多智能体数据集方面的努力通常受到模拟环境的限制[33, 34]。最近的V2V4Real[13]支持现实世界中的车辆间协同目标检测和跟踪,但双相机设置不足以进行环视感知。另一个相关数据集Ithaca365[12],在不同光照和天气条件下对同一路线的重复穿越进行记录,但只用前视相机收集数据。一些工作收集多穿越数据用于地图变化,如Argoverse 2数据集[4],而一些近期工作基于Argoverse 2建立3D重建方法或模拟器[35, 36]。
还有几项工作专注于长期视觉定位[37],例如牛津RobotCar数据集[38]和CMU Seasons数据集[39]。然而,这些数据集没有考虑多智能体驾驶的情景。为了填补这一空白,作者的MARS数据集提供了具有全景相机视角的多智能体、多穿越和多模态驾驶记录;见表1。值得注意的是,May Mobility车队的持续和动态运营使作者的MARS数据集在规模和多样性方面脱颖而出,具有单个地点数百次穿越的记录,并支持多达四辆车的协同驾驶,从而创下了穿越次数和智能体数量的记录。
视觉地点识别。 在计算机视觉和机器人学领域,视觉地点识别(VPR)具有重要意义,它基于视觉输入实现特定地点的识别[40]。具体来说,VPR系统通过将给定的 Query 数据(通常是图像)与现有的参考数据库进行比较,并检索与 Query 最相似实例来工作。对于在GPS不可靠环境中运行的基于视觉的机器人,这种功能至关重要。VPR技术通常分为两类:传统方法和基于学习的方法。传统方法利用手工制作的特征[41, 42]生成全局描述符[43]。然而,在实际应用中,_外观变化_和_有限视角_会降低VPR性能。为了解决_外观变化_的挑战,基于学习的方法利用深度特征表示[44, 45, 46]。除了基于图像的VPR,还提出了基于视频的VPR方法[47, 48, 49],通过视频剪辑实现了更好的鲁棒性,缓解了_有限视角_的问题。此外,CoVPR[50]引入了协同表示学习用于VPR,在多智能体协作与地点识别之间架起了桥梁,并通过利用合作者的信息解决了_有限视角_的问题。除了2D图像输入,PointNetVLAD[51]探索基于点云的VPR,为地点识别提供了一个独特的视角。在本文中,作者评估了单一智能体VPR和协同VPR。
自动驾驶中的NeRF。 神经辐射场(NeRF)[52]在无边界驾驶场景中最近受到了很多关注,因为它不仅促进了高保真神经模拟器[17]的发展,还实现了对环境的高分辨率神经重建[53]。关于新颖视图合成(NVS),研究行人已经解决了可扩展的神经表示与局部块[54, 55]、具有组合场的动态城市场景解析[56, 57]以及具有目标感知场的全景场景理解[58, 59]等挑战。关于神经重建,研究行人已经实现了基于激光雷达点云和图像输入的体面重建[60, 61]。同时,在无需依赖激光雷达的多视图隐式表面重建方面也做了许多努力[53]。基于NeRF的现有方法受到有限视觉观察的限制,通常依赖于沿狭窄轨迹收集的稀疏相机视角。利用额外的相机视角(无论是来自多个智能体还是重复穿越)丰富视觉输入并提高NVS或重建性能,还有很大的潜力尚未挖掘。
3 Dataset Curation
Vehicle Setup
表2:每辆车的May Mobility传感器套件规格。
图2:用于数据收集的车辆平台传感器设置。
传感器设置。_May Mobility_的车队包括四辆丰田塞纳,每辆车上都安装有一个激光雷达、三个窄角度RGB相机、三个广角度RGB鱼眼相机、一个IMU和一个GPS。这些传感器具有不同的原始输出频率,但所有传感器数据最终都会同步采样到10Hz。为了节省存储空间,相机图像会被降采样。这些传感器的详细规格列于表2中。一般来说,激光雷达位于车辆前部顶部。三个窄角度相机位于车辆的前方、前左方和前右方。三个鱼眼相机位于车辆的后部中央、左侧和右侧;见图2。IMU和GPS位于车辆顶部中央。这些传感器的显式外部参数以旋转和平移的形式表示,将传感器数据从其自身的传感器坐标系变换到车辆的自坐标系。对于每辆车上的每个相机,作者提供了相机的内在参数和失真系数。失真参数是通过AprilCal校准方法[62]推理得出的。
坐标系。有四个坐标系:传感器坐标系、自坐标系、局部坐标系和全局坐标系。传感器坐标系代表一个以单个传感器中心为原点的坐标系。自坐标系代表一个以自车后轴中心为原点的坐标系。局部坐标系代表一个以自车当日轨迹起点为原点的坐标系。全局坐标系是世界坐标系。
Data Collection
目前,May Mobility专注于微服务交通,在各个方向和顺序上运行固定路线的穿梭车辆。全程超过20公里,涵盖住宅、商业和大学校园区域,在交通、植被、建筑和道路标记方面具有多样化的环境。车队每天在下午2点到8点之间运营,因此涵盖了各种光照和天气条件。总的来说,May Mobility独特的运营模式使作者能够收集多遍历和多代理自动驾驶数据。
多遍历数据收集。作者在驾驶路线上总共定义了67个位置,每个位置覆盖一个直径为50米的圆形区域。这些位置涵盖了不同的驾驶场景,如交叉口、狭窄街道和长直路,以及各种交通条件。每天在不同时间,每个位置都会从不同方向进行遍历,确保对这一区域在物理和时间上的全面感知。作者通过车辆的GPS位置确定它是否正在穿越目标位置,并在车辆位于50米半径区域内时收集数据。遍历被过滤,使得每次遍历的时长介于5秒到100秒之间。
多代理数据收集。作者数据集的一个亮点是,作者提供了真实世界的同步多代理协同感知数据,实现了极其详细的空间覆盖。根据车辆的GPS坐标,作者提取了30秒的场景,在这些场景中,两辆或更多的自主车辆在9秒以上的时间里彼此距离不足50米,集体在同一时间从不同角度提供对同一区域的覆盖性感知。对于遭遇持续时间不足30秒的场景,将遭遇部分置于30秒持续时间的中心,前后分别填充相等时间的非遭遇部分(例如,20秒的遭遇部分通过在前后各增加5秒扩展为一个30秒的场景)。这种遭遇可以在地图的任何地方发生,构成了如图7所示的沿直线道路尾随和交叉口相遇等场景。作者的方法还确保了场景中的至少一辆车辆在30秒内行驶超过10米。
Dataset Statistics
图4:多穿越子集统计。
图5:每个地点的穿越次数和帧数。
图3:多代理子集统计。
图6:日景和夜景的比例。
多穿越子集包含了从2023年10月4日至2024年3月8日共26个不同天数的数据,其中4天有雨。作者总共收集了5,757次穿越,包含每个摄像头超过140万帧的图像以及360度激光雷达点云数据。在67个地点中,有48个地点超过20次穿越,23个地点超过100次穿越,6个地点超过200次穿越。平均每次穿越含有250帧(25秒),大多数穿越包含100到400帧(10到40秒)。所有地点穿越和帧的具体分布分别展示在图4和图5中。多代理子集包含了从2023年10月23日至2024年3月8日共20个不同天数的数据。作者收集了53个持续30秒的场景,每个场景稳定地包含297到300帧,总计超过15,000帧的图像和激光雷达点云数据。在53个场景中,52个涉及两辆车,1个涉及三辆车。每对自车之间的距离在每一帧都进行了分析。分布表明,大多数遭遇发生在两辆车彼此距离小于50米的情况下,如图3所示。
4 Benchmark Task and Model
Place Recognition
问题定义。作者考虑一个由M张图像组成的 Query 集和一个由N张图像组成的参考数据库。在这个任务中,目标是给定中的,找到中的,使得和在同一位置捕获。
评估指标。作者采用K位置的召回率作为VPR的评估指标。对于一个 Query 图像,作者选择与和之间Top-K余弦相似度的K个参考图像。如果选出的图像中至少有一个是在 S米范围内捕获的(本文中S=20),那么作者将其计为正确。K位置的召回率计算为正确计数总数与M的比值。
基准模型。作者采用NetVLAD [44],PointNetVLAD [51],MixVPR [45],GeM [63],Plain ViT [64],和CoVPR [50]作为基准模型。
NetVLAD 由基于CNN的主干网络和NetVLAD池化层组成。NetVLAD用可学习的软分配替代了VLAD [43]中的硬分配,以提取的特征作为输入,生成全局描述符。
MixVPR 由基于CNN的主干网络和特征混合器组成。将主干网络的输出展平为,然后使用行和列的MLP馈送到特征混合器,展平为单个向量,并进行归一化。
PointNetVLAD 由主干网络、NetVLAD池化和MLP组成。作者将主干网络的输出维度从1024减少到256,并省略了最后的MLP层以进行有效计算。
GeM 由基于CNN的主干网络和GeM池化组成。GeM池化定义为,其中是图像块特征,这里作者选择p=3。
Plain ViT[64] 由标准的 Transformer 编码器层和cls Token 上的归一化组成。
CoVPR[50] 由VPR模型和相似性正则化融合组成。VPR模型为 ego 代理和合作者生成描述符,融合模块将它们融合为一个单一的描述符。
Neural Reconstruction
问题定义。根据可用的遍历次数,作者将重建任务分为两种场景。第一种是单次遍历(动态场景重建),输入是一个图像序列,这些图像是一次遍历视频捕获的。目标是重建包括移动目标在内的逼真场景视图。第二种是多遍历(环境重建),输入是同一场景的图像序列集合。在此任务中的目标是重建环境并移除动态目标。
评估指标。基于早期工作中使用的方法[65],作者在动态重建的实验中使用了PSNR、SSIM和LPIPS指标。PSNR定义为,通过比较最大像素值和均方误差来评估图像质量。SSIM通过计算,衡量合成图像和真实图像之间的相似性,同时考虑均值、方差和协方差。LPIPS与前面两种指标不同,它使用预训练的神经网络模型来评估两张图像之间的感知相似性。
基准模型。对于单次遍历任务,作者采用EmerNeRF[66]和PVG[65]作为基准模型。此外,为了比较,作者还进行了使用iNGP[67]和3DGS[68]的实验,这些模型并不直接针对这个问题。关于多遍历重建,没有专门为这一任务设计的算法。因此,作者采用iNGP作为基本模型。此外,为了增强模型移除动态目标的能力,作者还测试了RobustNeRF[69]和结合了Segformer[70]的iNGP。
单次遍历:动态场景重建。
基于神经场,EmerNeRF是一种自监督方法,有效学习动态驾驶场景的空间-时间表示。EmerNeRF通过将场景分解为静态和动态场来构建混合世界表示。通过利用涌现流场,可以进一步聚合时间信息,提高动态组件的渲染精度。将2D视觉基础模型特征提升到4D时空空间,增强EmerNeRF的场景语义理解。
基于3DGS,PVG通过向每个高斯点引入周期性振动来模拟这些点的动态运动。为了处理目标的显现和消失,它还为每个点设定了时间峰和生命周期。通过学习这些参数以及高斯函数的均值、协方差和球面谐波,PVG能够以节省内存的方式重建动态场景。
多遍历:环境重建。
RobustNeRF替换了原始NeRF的损失函数以忽略干扰物,在作者的案例中,作者认为动态目标是干扰物。此外,RobustNeRF在其损失估计器中应用了一个盒状核,以防止高频细节被识别为异常值。
SegNeRF利用预训练的语义模型SegFormer[70]来移除可移动目标。
5 Experimental Results
Visual Place Recognition
数据集详情。作者在多遍历和多功能代理数据上进行了VPR任务的实验。在多遍历情况下,编号大于或等于52的交叉口用于测试。在多功能代理设置中,编号大于或等于50的场景用于测试。输入图像被调整至大小,输入点云被下采样至1024个点。
实施细节。作者在第4节提到的模型上评估作者的数据集,其中CoVPR [50]用多功能代理数据评估,其他所有模型用多遍历数据评估。Backbone 网络在ImageNet1K [71]上进行预训练。作者为NetVLAD和CoVPR使用ResNet18 [72]作为 Backbone 网络,为MixVPR和GeM使用ResNet50 [72],为PointNetVLAD使用PointNet [73]。基于NetVLAD的方法中的簇数量为32。模型使用Adam [74]优化器进行训练,PointNetVLAD的学习率为1e-3,其他的学习率为1e-4,衰减率为1e-4,直至收敛。NetVLAD-based方法的批处理大小为20,其他方法的批处理大小为10。
结果讨论。定量结果在表3中展示。尽管GeM在池化方法中具有轻量级特点,但与使用较小 Backbone 网络的NetVLAD相比,其性能不佳。尽管ViT的 Backbone 网络比ResNet更强,但在没有特定任务池化方法的情况下,在VPR中的表现较弱。MixVPR实现最佳性能,因为其特征混合机制提供了更丰富的特征。PointNetVLAD利用点云,在输入尺寸较NetVLAD更小的情况下获得了更好的性能。在多功能代理数据的背景下,CoVPR一致性地优于其单代理对应物。定性结果在图8中描绘。作者的数据集包含白天和夜晚的场景,在各种天气条件下,如晴朗、多云和雨天。困难示例源自于夜晚场景和受雨水或逆光影响的摄像机。
Neural Reconstruction 2024-06-17-04-31-34
数据集细节. 在作者单次穿越动态场景重建的实验中,作者选择了10个不同的地点,每个地点一次穿越,旨在捕捉和表现复杂的城市环境。对于作者的多次穿越环境重建实验,作者总共选择了50次穿越。这包括10个独特的地点,每个地点5次穿越,使作者能够捕捉光照条件和天气的变化。
实施细节. 在所有重建实验中,作者使用三个前置摄像头中的100张图像以及激光雷达数据作为每次穿越的输入。单次穿越实验: iNGP和EmerNeRF模型都使用Adam [74]优化器进行10000次迭代训练,学习率为0.01,权重衰减率为0.00001。对于EmerNeRF,作者利用来自DINOv2 ViT-B/14 [75]基础模型的dino特征。该模型中使用的估计器是PropNet,包括线性视差和均匀采样。对于3DGS和PVG,作者将训练迭代次数设置为20000,学习率与原作[65]中的相同。作者将3DGS视为PVG方法的一个特例,运动振幅为,寿命为无限,作者在实验中将其设置为。_多次穿越实验:_ 作者在这个实验中的NeRF模型是带有图像嵌入和DINO特征的iNGP [67]。对于RobustNeRF,作者实现了原文[69]中描述的鲁棒损失和 Patch 样本。在SegNeRF中,作者应用了在Cityscapes [76]数据集上训练的SegFormer-B5 [70]模型。在SegFormer模型的19个类别中,作者将'人'、'骑车人'、'汽车'、'卡车'、'公交车'、'火车'、'摩托车'和'自行车'识别为动态类别,并为它们生成 Mask 。
结果讨论。单次穿越实验:根据表4中呈现的结果,PVG获得了更高的SSIM分数和更低的LPIPS分数,表明其增强了结构细节。PVG这种卓越性能可能归功于其灵活的高斯点设置,
6 机会与挑战
作者的MARS数据集用多智能体驾驶记录引入了新的研究机会,以及大量对同一地点的重复穿越。作者概述了几项有前景的研究方向及其相关挑战,为未来的研究开辟了新途径。
3D重建。 重复穿越可以产生一个3D场景的众多相机观测,便于在多视点重建中进行对应搜索和捆绑调整。作者的数据集可以用于研究仅用相机的多次穿越3D重建,这对于自主地图绘制和定位至关重要。主要挑战是处理重复穿越随时间变化的外观变化和动态物体。例如,一项近期工作,3D高斯映射[77],利用多次穿越的一致性将场景分解为高斯溅射表示的3D环境图和2D物体 Mask ,无需任何外部监督。
神经仿真。 多代理和多遍历记录对于构建能够重建和模拟场景及传感器数据的神经仿真器非常有价值。高保真度仿真对于开发感知和规划算法至关重要。主要挑战在于复制现实世界的动态和可变性,例如建模动态目标的行为、环境条件以及传感器异常,确保模拟数据提供一个全面且真实的测试平台。
例如,一项近期工作提出了一种神经场景表示方法,它可扩展到大规模动态城市区域,处理从多次遍历中收集的异构输入数据,并显著提高渲染速度[36]。另一项同时进行的工作提出了一种多级神经场景图表示,它可以扩展到成千上万的图像,来自数十个包含数百个快速移动目标的序列[35]。
无监督感知。 在无监督的3D感知中利用场景先验具有重大价值,特别是在多次遍历驾驶场景中,先前访问的丰富数据可以增强在线感知。这种方法不仅通过随时间积累的知识促进对环境的更深入理解,而且无需使用手动标注的训练即可实现无监督感知。
7 Conclusion
作者的MARS数据集在自动驾驶车辆研究方面代表了显著的进步,它通过整合多代理、多遍历和多媒体维度,超越了传统的数据收集方法。
MARS为探索3D重建和神经模拟、协作感知和学习、具有场景先验的无监督感知等开辟了新的途径。
未来的工作包括为在线感知任务提供标注,如在多代理和多遍历情境中的语义占用预测。
作者坚信MARS将在人工智能驱动的自动驾驶车辆研究中建立一个新的基准。
参考
[1].Multiagent Multitraversal Multimodal Self-Driving
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵