最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到王汝嘉分享刚刚开源的Argoverse 2数据集,该数据集是有史以来最大的激光雷达传感器数据集合,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【全栈算法】技术交流群

后台回复【数据集下载】获取Nuscenes、KITTI、COCO等计算机视觉近30种数据集!

论文:https://arxiv.org/pdf/2301.00493.pdf

代码:https://github.com/Argoverse/Argoverse-api

作者单位:Georgia Tech UBC MIT CMU

6cd1744904362dded03f22f8aeb18fb4.png

0.摘要:

本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。带标注的传感器数据集包含1000个多模态数据序列,包括来自七个环视摄像机和两个双目摄像机的高分辨率图像,以及激光雷达点云和6自由度地图配准位姿。序列包含26个目标类别的三维长方体标注,所有这些标注都是充分采样的,以支持训练和三维感知模型的评估。激光雷达数据集包含20,000个未标记的激光雷达点云序列和地图配准位姿。该数据集是有史以来最大的激光雷达传感器数据集合,支持自监督学习和新兴的点云预测任务。最后,运动预测数据集包含250,000个场景,挖掘每个场景中自车与其他参与者之间有趣和具有挑战性的交互。模型的任务是预测每个场景中scored actors的未来运动,并提供跟踪历史,捕捉目标的位置、航向、速度和类别。在所有三个数据集中,每个场景都包含自己的高精地图,带有3D车道和人行横道几何形状--来自六个不同城市的数据。本文相信这些数据集将以现有数据集无法支持的方式支持新的和现有的机器学习研究问题。所有数据集都是在CC BY-NC-SA 4.0许可下发布的。

1.介绍:

为了实现安全、可靠的自动驾驶目标,必须解决一系列机器学习任务,从双目深度估计到运动预测,再到三维目标检测。近年来,大量高质量的自动驾驶数据集被发布,以支持对这些和其他重要机器学习任务的研究。许多数据集被标注为“传感器”数据集[4,45,39,40,24,33,18,14,41,36],这与有影响力的KITTI数据集[17]的精神是一致的。Argoverse 3D跟踪数据集[6]是第一个带有“高清地图”的数据集--包含车道级几何形状的地图。同样有影响力的是自动驾驶的“运动预测”数据集[12,22,34,4,52]--包含抽象的目标轨迹而不是原始的传感器数据--其中Argoverse运动预测数据集[6]是第一个.

在过去的两年里,Argoverse团队举办了六场关于3D跟踪、双目深度估计(stereo depth estimation)和运动预测的比赛。Argoverse团队维护这些任务的评估服务器和排行榜,以及3D检测。排行榜总共包含了来自400个团队的数千份提交(submissions)。Argoverse团队还维护Argoverse API,并且已经解决了100多个问题。从这些经验中,本文形成了以下指导原则来指导创建Argoverse数据集的下一个迭代。

  1. 越大并不总是越好。(Bigger isn’t always better.) 自动驾驶车辆捕获大量传感器数据,这些数据在逻辑(logistically)上很难处理。传感器数据集的大小为数TB,即使经过压缩也是如此。如果标准基准进一步增长,本文就有可能疏远学术界,并将进展留给资源丰富的行业团体。因此,本文匹配但不超过nuScenes[4]和Waymo Open[45]中传感器数据的规模。

  2. 让每一个实例都有价值。(Make every instance count.)大多数时候驾驶场景都是正常的。数据集应该聚焦于当前预测和感知系统所面临的困难、有趣的场景。因此,本文挖掘特别拥挤,动态,和运动不寻常的场景。

  3. 多样性很重要。(Diversity matters) 对底特律市冬季数据的训练不足以检测迈阿密的物体--迈阿密的摩托车和轻便摩托车频率是底特律市的15倍。行为也不同,因此学习的行人运动行为可能不会泛化。因此,本文的每个数据集都来自六个不同的城市--奥斯汀、底特律、迈阿密、帕洛阿尔托、匹兹堡和华盛顿特区--以及从下雪到阳光明媚的不同季节。

  4. 绘制世界地图。(Map the world) 高清地图是感知和预测的强大先验信息。基于学习的方法找到了对地图信息进行编码的巧妙方法[31],在Argovise竞赛中表现出色。出于这个原因,本文用3D车道几何形状、油漆标记、人行横道、更高分辨率的地面高度等来增强本文的高清地图表示。

  5. 自监督。(Self-supervise) 近年来,其他机器学习域从自监督学习中获得了巨大的成功。来自动态场景的大规模激光雷达数据,与高清地图配对,可以比目前的监督方法更好地表现。为此,本文构建了最大的激光雷达传感器数据集。

  6. 与沉重的长尾搏斗。(Fight the heavy tail) 乘用车是常见的,因此可以评估对汽车的预测和检测的准确性。然而,在现有的数据集中,无法根据公交车和摩托车的不同行为来评估它们的预测精度,也无法评估婴儿车和轮椅的检测。因此,本文为传感器和预测数据集引入了迄今为止最大的分类法,并确保了足够的样本用于训练和评估模型。

考虑到这些指导原则,本文构建了三个Argoverse2(AV2)数据集。下面,本文着重介绍他们的一些贡献。

  1. 1000个场景传感器数据集拥有迄今为止最大的自动驾驶分类--30个类别。26个类别包含至少6000个长方体(cuboids),以支持不同的分类学训练和测试。与最近的自动驾驶数据集不同,该数据集还具有双目图像(stereo imagery)。

  2. 两万(20,000)个场景激光雷达数据集是激光雷达上最大的自监督学习数据集。唯一类似的数据集,是同时开发的(concurrently developed)ONCE[36],其没有高清地图。

  3. 二十五万(250,000)个场景运动预测数据集具有最大的分类法--5种类型的动态参与者和5种类型的静态参与者--并且覆盖了任何此类数据集中最大的映射区域。

本文相信这些数据集将支持三维检测、三维跟踪、单目和双目深度估计、运动预测、视觉里程测量、姿态估计、车道检测、地图自动化(map automation)、自监督学习、运动结构、场景流、光流、接触时间估计和点云预测等问题的研究。

2.相关工作:

在过去的几年里,在许多高质量数据集的催化下,自动驾驶感知和预测研究取得了快速进展。

传感器数据集和三维目标检测与跟踪。 用于三维目标检测的新传感器数据集[4,45,39,40,24,33,18,14,41,36]导致了有影响力的检测方法,如基于锚点的方法,如PointPillars[27],以及最近的无锚点的方法,如AFDET[16]和CenterPoint[51]。这些方法显著提高了所有数据集的精度。反过来,这些改进使得分离特定于目标的点云成为可能,这被证明对于离线检测和跟踪[42]以及模拟[8]是无价的(invaluable),而模拟以前需要人工标注的3D bounding boxes[35]。新的方法探索替代点云表示,如距离图像(range images)[5,2,46]。流式感知(Streaming perception)[29,21]引入了一种范式来探索准确性和潜伏期之间的权衡。表1提供了AV2传感器数据集和最近的三维目标检测数据集之间的详细比较。

9067dce2bbbdab709117389a2535051f.png

运动预测。 在运动预测方面,进展也同样显著。向基于注意力的方法[28,38,37]的转变导致了各种新的基于矢量的地图和轨迹数据表示[15,31]。新的数据集也为新的算法铺平了道路,nuScenes[4],Lyft L5[22]和Waymo Open Motion数据集[12] 在Argoverse 1[6]中证明它们是必要的后,都发布了车道图。Lyft还引入了交通/速度控制数据,而Waymo在地图上添加了人行横道多边形、车道边界(带有标记类型)、速度限制和停车标志。最近,Yandex发布了Shifts[34]数据集,这是迄今为止最大的预测数据集(按情景时间计算)。这些数据集结合在一起,使利用静态和动态地图进行多参与者、长程运动预测的探索成为可能。

继Argoverse 1.1的成功之后,本文将AV2定位为一个高质量运动预测场景的大规模存储库--保证数据频率(正好10赫兹)和多样性(覆盖6个城市的超过2000公里的独特道路)。这与nuScenes(仅以2赫兹报告数据)和Lyft(在一段10公里的道路上收集)形成鲜明对比,但与Waymo Open Motion DataSet(采用类似的方法进行场景挖掘和数据配置)是互补的。互补数据集对于这些安全关键问题至关重要,因为它们提供了评估泛化和探索迁移学习的机会。为了提高易用性,本文还将AV2设计为在数据大小和格式方面都可广泛访问-表2提供了与其他最近预测数据集的详细比较。

cf4e08274652424452153b353676099c.png

更广泛的自动驾驶感知问题。 除了目标检测和运动预测的任务,用于自动驾驶的新的大规模传感器数据集为探索数十个新的感知问题提供了机会,尤其是那些可以通过自监督解决的问题。有一些新的问题最近被提出;由于SemanticKITTI[1]的出现,视频中的实时三维语义分割受到了人们的关注。HD地图自动化[54,30]和HD地图变化检测[26]与3D场景流和像素级场景模拟[50,8]一起受到了额外的关注。数据集具有独特的模态,如热像(thermal imagery)[10,9]。本文的新激光雷达数据集能够对自由空间预测[23]或点云预测[48,49]的新方法进行大规模的自监督训练。

3. The Argoverse 2 Datasets

3.1 Sensor Dataset 传感器数据集

Argoverse 2传感器数据集是Argoverse 1 3D跟踪数据集的后续。AV2更大,有1000个场景,高于Argoverse 1中的113个,但每个AV2场景也更丰富--AV2中有23倍的非车辆、非行人长方体。作者手工选择Argoverse 2传感器数据集中的30s组成场景,以包含拥挤的场景,其中包含未被表示的对象、值得注意的天气和有趣的行为,如插队和乱穿马路。每个场景的持续时间为15秒。表1将AV2传感器数据集与自动驾驶数据集进行了比较。图1、2和3显示了AV2的场景在标注范围、目标多样性、目标密度和场景动态性方面如何优于其他数据集。

与本文最相似的传感器数据集是非常有影响力的nuScenes[4]--这两个数据集都有1000个场景和高清地图,尽管Argoverse在拥有地面高度地图方面是独一无二的。nuScenes包含毫米波雷达数据,而AV2包含双目图像。nuScenes有一个很大的分类学--23个目标类别,其中10个有适合训练和评估(evaluation)的数据。本文的数据集包含30个目标类别,其中26个被很好地采样,足以用于训练和评估。nuScenes横跨两个城市,而本文的提出的数据集横跨六个城市。

4fe42cbc71a18cc11786cb2fe86ec4c9.png 875eab2d2ace3fe08ef066b66cd844d1.png ba765da5488e4e9d9c2767d18807dd47.png

传感器套件。 激光雷达扫描收集在10赫兹,以及20 fps图像从7个摄像头定位,以提供一个完整的全景视野。此外,还提供了全局坐标系下的摄像机内参、外参和6自由度 ego-vehicle 姿态。激光雷达回波由两个32波束激光雷达捕获,激光雷达在同一方向以10赫兹旋转,但在方向上相隔180°。摄像机触发与两个激光雷达同步,导致20赫兹的帧率。七个全局快门摄像机与激光雷达同步,使它们的曝光集中在激光雷达上,扫描它们的视野。在附录中,本文提供了一个示意图,说明了汽车传感器套件及其坐标框架。

激光雷达同步精度。 在AV2中,本文改进了摄像机和激光雷达的同步比Argoverse 1明显。本文的同步精度在[-1.39,1.39]ms,与Waymo开放数据集[-6,7]ms[45]相比较。

标注。 AV2传感器数据集包含本文30个类分类法中的对象的10 Hz 3D长方体标注(图1)。长方体的轨道标识符随着时间的推移对于相同的目标实例是一致的。如果对象在“感兴趣区域”(ROI)内--在映射的“可驾驶”区域的五米内,则对其进行标注。

隐私。 为了保护隐私,所有的脸和车牌,无论是在车辆内还是在可驾驶区域外,都被广泛模糊。

传感器数据集分割。 本文随机地将数据集划分为700、150和150个场景的训练、验证和测试拆分。

3.2 Lidar Dataset 激光雷达数据集

Argoverse 2 激光雷达数据集旨在支持激光雷达域中的自监督学习研究以及点云预测[48,49]。由于激光雷达数据比完整的传感器套件更紧凑,本文可以包括两倍长度的场景(30秒而不是15秒),和更多 (20,000 而不是 1,000),相当于大约40倍的驾驶小时,空间预算是5倍。AV2激光雷达数据集的挖掘标准与预测数据集(第3.3.2节)相同,以确保每个场景都是有趣的。虽然激光雷达数据集没有3D目标标注,但每个场景都带有一张高清地图,其中包含关于场景的丰富的3D信息。

本文的数据集是迄今为止最大的此类集合,有20,000个30秒序列。唯一一个类似的数据集,是同时发布的ONCE[36],包含1M激光雷达帧,而本文的是6M激光雷达帧。本文的数据集以10 Hz采样,而不是像ONCE[36]中那样以2 Hz采样,使本文的数据集更适合于点云预测或自监督任务,这些任务点云随时间的演变是重要的。

激光雷达数据集分割。 本文用分别为16,000个、2000个和2000个场景的train、validation和test拆分 随机划分数据集。

3.3 Motion Forecasting Dataset 运动预测数据集

运动预测解决了预测局部环境中动态行为者的未来状态(或占用图)的问题。自动驾驶相关行为者的一些例子包括:车辆(停车和移动)、行人、骑自行车的人、滑板车和宠物。由预测系统生成的预测未来被用作运动规划的主要输入,运动规划根据这种预测条件进行轨迹选择。生成这些预测提出了一个复杂的、多模态的问题,涉及许多不同的、部分观察的和社会交互的主体。然而,通过利用观察到的ground truth futures 来“自我标记”数据的能力,运动预测成为机器学习应用的理想领域(ideal domain)。

在Argoverse 1成功的基础上,Argoverse 2运动预测数据集提供了从自动驾驶车队收集的一组更新的预测场景。下面列举的设计决策总结了本文从内部研究/开发中吸取的集体经验教训,以及来自3个竞赛中近260个独特团队提交的2700多份submissions的反馈意见[43]:

  1. 运动预测是长尾域中的一个安全关键系统。 因此,本文的数据集偏向于包含不同类型focal agent的不同和有趣的场景(见第3.3.2节)。本文的目标是鼓励开发确保尾部事件(tail events)期间安全的方法,而不是优化“轻松里程”上的预期性能。

  2. There is a “Goldilocks zone” of task difficulty. Argoverse1测试集的性能已经开始稳定下来,如附录的图10所示。Argoverse 2的设计是为了增加预测的难度,在未来几年刺激富有成效的重点研究。这些变化旨在激励在扩展预测范围(3s→6s)上表现良好的方法,处理多种类型的动态对象(1→5),并确保长尾场景的安全性。未来的Argoverse releases可能会通过减少观测窗口和增加预测层位来继续增加问题的难度。

  3. 可用性很重要。 Argoverse 1受益于一个庞大而活跃的研究社区--在很大程度上是由于设置和使用的简单性。因此,本文注意确保现有的Argoverse模型可以很容易地移植到Argoverse 2上运行。特别是,本文优先考虑对地图元素的直观访问,鼓励使用车道图作为强优先级的方法。为了提高训练和泛化,所有姿态也被插值和重新采样在精确的10赫兹(Argoverse 1是近似的)。新的数据集包括更少,但更长和更复杂的场景;这确保总的数据集大小保持足够大,可以训练复杂的模型,但足够小,可以方便地访问。

3.3.1 Data Representation 数据表示

该数据集包括从美国六个独特的城市驾驶环境中挖掘的25万个非重叠场景(80/10/10 Train/Val/Test随机拆分)。它总共包含10个目标类型,其中动态和静态类别各有5个(参见图4)。每个场景包括本地矢量地图和11秒(10赫兹)的轨迹数据(2D位置、速度和方向),用于在本地环境中由eGo-vehicle观察到的所有轨迹。每个场景的前5秒被表示为观察窗口,而随后的6秒被表示为预测视界。

在每个场景中,本文将单个轨迹标记为focal agent。focal轨迹保证在整个场景期间得到充分观察,并经过特别选择,以最大限度地与地图特征和附近其他行为者进行有趣的互动(见第3.3.2节)。为了评估多智能体预测,本文还将轨道的子集标记为“得分参与者”(如图5所示),并保证场景相关性和最小数据质量。

e88ab9133c8f7b50646470c906b0cc90.png

图4:运动预测数据集的目标类型和地理直方图。左图:“focal”和“得分”类别上的目标类型直方图。中心:数据集中所有轨道上的目标类型直方图。不同静态目标类型之间的细粒度差异(例如,建筑锥和无人自行车)在预测数据集中是独特的。右图:数据集中包含的大都市区直方图。

fe156b704148cdfb5d16e4423fb17653.png

图5:运动预测数据集中一些有趣场景的可视化。这些场景演示了各种目标类型(车辆、行人、公共汽车、自行车手或摩托车手)的混合。ego-vehicle用绿色表示,focal agent用紫色表示,scored actors用橙色表示。其他未评分的tracks以蓝色显示。目标位置是在观测历史的最后一个时间步骤捕获的。为了可视化的目的,为focal agent呈现完整的5秒历史和6秒未来,而为其他scored actors只显示1.5秒未来。左边是一个行人在ego-vehicle前面穿过,而中间和右边是一个摩托车手在交通中穿行。

3.3.2 Mining Interesting Scenarios 挖掘有趣的场景

Argoverse 2的源数据来自船队日志(fleet logs),这些日志带有与有趣或难以预测的事件一致的标注。每个日志被修剪到30秒,并通过兴趣评分模块运行,以便将数据选择偏向于来自自然分布长尾的示例。本文使用启发式方法对场景中的每个轨迹进行五个维度的评分:目标类别、运动学、地图复杂性、社会背景和与自我载体(ego-vehicle)的关系(细节见附录)。

最后的场景是通过提取非重叠的11 s窗口生成的,其中至少有一个候选轨道在整个持续时间内被完全观察到。得分最高的候选轨道被表示为focal agent;所有其他完全观察到的轨道在30米内的ego-vehicle表示为scored actors。由此产生的数据集是多样的、具有挑战性的,并且仍然适合广泛使用(请参见表2中的下载大小)。在图6中,本文展示了结果数据集比Argoverse 1.1更有趣,并验证了本文的直觉,即在启发式模块中得分高的参与者(actors)更难准确预测。

4ffb06d2c6c96d57f01a101a1aecabc2.png

3.4 HD Maps 高精地图

上述三个数据集中的每个场景共享相同的HD地图表示。每个场景都带有自己的本地地图区域,类似于Waymo Open Motion[12]数据集。这与最初的Argoverse数据集不同,在最初的数据集中,所有场景都被本地化到两张城市地图上--一张是匹兹堡的,一张是迈阿密的。在附录中,本文提供了例子。每个场景映射的优点包括更高效的查询和处理映射更改的能力。在本文的数据集中,一个特定的十字路口可能会被观察多次,在此期间车道、人行横道甚至地面高度都可能发生变化。

车道图。 HD地图的核心特征是车道图,由图组成,其中是单个车道段。在附录中,本文列举并定义了本文为每个车道段提供的属性。与Argoverse 1不同,本文提供了实际的3D车道边界,而不仅仅是中心线。但是,本文的API提供了代码,可以在任何期望的采样分辨率下快速推断中心线。折线被量化到1cm分辨率。本文的表示比nuScenes更丰富,它只在2D中提供车道几何,而不是3D。

可驾驶区域。 而不是像在Argoverse 1中所做的那样,以光栅化格式提供可驾驶区域分割,本文以矢量格式释放它,即作为3D多边形。这提供了多种优势,主要是在压缩方面,允许本文为成千上万的场景存储单独的地图,然而光栅格式仍然很容易衍生。将多边形顶点量化到1cm分辨率。

地表高度。 只有传感器数据集包括密集的地表高度图(尽管其他数据集仍然有关于折线的稀疏的三维高度信息)。地地面高度为可行驶区域边界5m等值线内的区域提供,本文将其定义为感兴趣区域(ROI)[6]。本文这样做是因为对于建筑物内部和建筑密集的城市街区内部,地面车辆由于遮挡而无法观察的区域,地表高度的概念定义不清(ill-defined)。光栅栅格被量化到30cm分辨率,比Argoverse 1中的1m分辨率更高。

本地地图的面积。每个场景的局部地图都包括在ego-vehicle轨迹的l2范数中100米膨胀范围内找到的所有实体。

4 Experiments 实验

Argoverse 2支持多种下游任务。在本节中,本文重点介绍三个不同的学习问题:3D目标检测、点云预测和运动预测--每一个分别由传感器、激光雷达和运动预测数据集支持。首先,本文在训练的Argoverse 2传感器数据集中展示了具有挑战性和多样性的分类法,这是一个关于本文的26个评估类的三维检测模型,包括“长尾”类,如婴儿车、轮椅和狗。其次,通过点云预测任务,通过大规模的自监督学习,展示了Argoverse 2激光雷达数据集的效用。最后,本文进行了运动预测实验,为广泛的分类学运动预测提供了第一个基线。

4.1 3D Object Detection 三维目标检测

本文使用最先进的、anchorless的三维目标检测模型-CenterPoint[51]提供基线三维检测结果。本文的CenterPoint实现将一个点云作为输入,并将其裁剪到一个200m×200m的网格中,体素分辨率在XY(鸟瞰)平面为[0.1m,0.1m],Z轴为0.2m。为了适应本文更大的分类法,本文包括六个检测头来鼓励特征专业化。图7描述了使用nuScenes[4]平均精度度量的3D检测基线的性能。本文的大分类法允许本文评估 如“轮式设备”(电动滑板车)、“婴儿车”、“狗”和“轮椅”类,本文发现,尽管有大量的训练数据,但用这些强大基线在这些类别上的性能很差。

在表3中,本文提供了提交给Argoverse 2 3D目标检测排行榜的快照。

0f537c454fb3b2019cf8497df3fc1137.png 4268c042f956db669a9e7712e1c71f03.png

4.2 Point Cloud Forecasting 点云预测

本文利用Argoverse 2激光雷达数据集,按照SPF2[49]的实验协议进行点云预测。给定一个过去的场景点云序列,需要一个模型来预测一个未来的场景点云序列。本文以距离图像(range images)格式的过去1秒(10 Hz)的场景点云作为输入,然后预测未来1秒的距离图像(range images)。SPFNET在每个时间步预测两个输出映射--第一个输出映射是预测的范围值,而第二个输出是有效性掩码。以前的点云预测模型是在较小的数据集上评估的,如KITTI或nuScenes。为了探索训练数据量如何影响性能,本文使用了越来越多的训练相同模型架构的数据,直到16,000个序列的完整训练集。

评价Evaluation 本文使用三个指标来评估本文的预测模型的性能:mean IoU,l1-norm, and Chamfer distance(倒角距离)。平均IOU评估预测范围掩码。L1范数度量 预测出的距离(predicted range)像素组与ground truth像素组之间的平均L1距离,两者都被ground truth range mask掩码。该倒角距离是将 预测的距离图像反投影得到的 预测场景点云与ground truth点云之间的两个方向(向前和向后)的倒角距离相加得到的。

SPF2结果及讨论。 表4包含了本文的点云预测实验结果。随着训练数据的增加,该模型的性能在所有三个指标上都稳步增长。这些结果和来自自监督学习文献[3,7]的工作表明,大量的训练数据可以产生实质性的差异。另一个观察是,在本文的数据集上预测的倒角距离明显高于KITTI[49]上的预测。本文推测,这可能是由于两个原因:(1)Argoverse 2激光雷达数据集具有更大的传感范围(大于200m,而KITTI激光雷达传感器的120m),这往往会显著增加倒角距离值。(2)Argoverse 2激光雷达数据集与KITTI数据集相比具有更高的动态场景比例。

f82058887fc7f4ad5f283d1666e2625d.png

4.3 Motion Forecasting 运动预测

本文提出了几个预测基线[6],它们试图利用数据的不同方面。那些只使用focal agent训练而不捕捉任何社会交互的模型包括:constant velocity, nearest neighbor, and LSTM encoder-decoder models(both with and without a map-prior)。本文还评估WIMP[25]作为一个基于图的关注方法捕捉社会互动的例子。所有超参数都是从参考实现中获得的。

评价。 基线方法是根据标准度量进行评估的。继[6]之后,本文使用minADE和minFDE作为度量;它们分别评估最佳预测轨迹和地面真实值之间的平均距离和端点L2距离。本文还使用了Miss Rate(MR),其表示根据端点误差没有一个预测轨迹在ground truth的2.0米内的测试样本的比例。结果表明,与Argoverse 1.1相比,社区在这个问题上的进步以及数据集难度的显著增加。

基线结果。 表5概述了基线的结果。对于K=1,Argoverse 1[6]表明,恒速模型(minFDE=7.89)优于NN+MAP(Prior)(minFDE=8.12)。这进一步证明了Argoverse 2在运动学上更加多样,不能通过作等速假设来求解。令人惊讶的是,使用地图的NN和LSTM变体比不使用地图的变体性能更差,说明了这些基线如何利用地图的改进范围。对于K=6,WIMP显著优于其他基线。这强调了训练具有表达能力的模型是必要的,这些模型可以利用地图、先验和社会背景,并做出不同的预测。这种趋势类似于本文过去的3次Argoverse运动预测竞赛[43]:基于图的注意力方法(例如[25,31,37])继续在竞赛中占据主导地位,在K=6时,其准确性几乎是次佳基线(最近邻)的两倍。也就是说,一些基于光栅化的方法(例如[19])也显示出了有前景的结果。最后,本文还在迁移学习和各种目标类型的背景下评估了基线方法,其结果总结在附录中。

在表6中,本文提供了提交给Argoverse 2 运动预测排行榜的快照。

6e994bea8df9c3ff0443dcae8b7513a8.png

表5:来自Argoverse 2运动预测(测试版)数据集的运动预测基线方法在类车辆(车辆、公共汽车、摩托车手)目标类型上的性能。使用map prior表示对地图信息的访问,而使用社会上下文则需要在特征表示中编码其他行为者的状态。挖掘交集(多模式)场景会导致所有方法在K=1时性能不佳。由于数据集偏向于运动学上感兴趣的轨迹,等速模型的性能特别差。请注意,在K=6时,现代深度方法(如WIMP)仍然有0.42的脱靶率,这表明Argoverse 2数据集的难度增加了。最好值1%以内的数字用粗体表示。

2d7e9e092205b5cda9653b379f26cf62.png

表6:从2022年12月21日的在线排行榜上获得的Argoverse 2 运动预测数据集的运动预测结果。BANet是CVPR 2022 Workshop 自动驾驶Argoverse 2 运动预测挑战赛(#1)的获胜者,QML和GANet获得了荣誉奖(HM)。条目在下面按照Brier-minFDE进行排序。

5 Conclusion 结论

讨论。 在这项工作中,本文引入了三个新的数据集组成Argoverse 2。本文为三个任务提供基线探索--三维目标检测、点云预测和运动预测。本文的数据集为许多其他任务提供了新的机会。本文相信本文的数据集与现有的数据集相比是有利的,具有高清地图、丰富的分类、地理多样性和有趣的场景。

局限性。 在任何人类标注的数据集中,都存在标签噪声,尽管本文在发布前试图将其最小化。运运动预测数据集中不包含物体的3D bounding boxes,但在给定目标类型的情况下,可以对目标范围做出合理的假设。运动预测数据集也有不完善的跟踪,与最先进的3D跟踪器一致。

6 Appendix 附录

6.1有关传感器套件的其他信息

在图8中,本文提供了用于捕获Argoverse 2数据集的传感器套件的示意图。图9显示了带标注的行人3D长方体的速度分布和偏航分布。

59dc1dd5b35fc18fd2ded12c4ea921de.png

图8:汽车传感器原理图,显示三个坐标系:(1)the vehicle frame in the rear axle;(2)the camera frame;还有the lidar frame。

3372026ed563230598764d48912b2974.png

图9:左:通过速度分布为行人移动的3D长方体的数量。本文定义当速度大于0.5米/秒时为运动物体。右:通过偏航分布标注的3D长方体的数量。

6.2有关运动预测数据集的其他信息

6.2.1 Interestingness Scores

运动学评分选择执行急转弯或显著(de)加速的轨迹。MAP复杂性程序将数据集偏向于底层车道图的轨迹、复杂遍历。特别是,复杂的地图区域、通过十字路口的路径和车道变换得分很高。社会得分奖励跟踪通过密集区域的其他行动者。社会评分还为非车辆目标类别选择,以确保从稀有类别(如摩托车)中获得足够的样本,用于训练和评估。最后,自动车辆计分程序鼓励选择与ego-vehicle期望路线相交的轨道。

edbb080a3467af82c40414f96fef00cc.png

图10:Argoverse1.1上提交的minFDE度量值随时间的变化。个人点表示提交给公共领导者委员会。颜色表示特定的比赛阶段。黑色实线表示SOTA性能。研究界取得了巨大进展,但自2020年初以来一直处于稳定状态。然而,本文注意到,在SOTA或附近执行的方法的数量和多样性继续增长。此外,后来的比赛根据“失误率”和概率加权FDE对排行榜进行了排序,这些指标显示了进步。尽管如此,minFDE并没有显著改善。

52b975a431697c45097b713eec32397c.png 9898ca823de60392df80d3a38d8a5607.png

图11:Motion预测数据集场景中出现的参与者数量(包括得分和所有类型)的直方图。激光雷达数据集是根据相同的准则挖掘的,因此遵循相同的分布。

6.3有关高清地图的额外资料

传感器数据集中的高清地图示例 在图12中,本文显示了与各个日志/场景相关联的本地HD地图示例。

7737dc2d83a3eccbad6ccea90a900764.png

图12:几个不同城市的传感器数据集中的本地矢量地图上的egovehicle(AV)轨迹示例。给出了一个100m×100m的局部地图区域。人行横道用紫色表示。为了说明的目的,红圈表示在1 Hz下离散采样的AV姿态。姿态是在>20赫兹的数据集中提供的,如由红线指示的轨迹路径所示。城市布局变化很大,例如迈阿密的道路通常平行于南北、东西网格,而匹兹堡的道路通常不是。

072ab86046430f55d9d9657ba65d23a6.png

6.4 额外的3D检测结果

8b129854c10a878def26dde38bc39f4d.png b4057489fbae3f17f1b3d6e9218d9108.png

图13:3D目标检测性能在传感器数据集的验证split(测试版)。顶行:复合检测评分(左) 平均平移误差(右)底部行:平均缩放误差(左)和平均方向误差(右)。结果显示在传感器数据集的验证集上。

6.5 SPF2基线的训练详细情况

本文每0.5秒采样2秒的训练片段(表示1秒过去数据和1秒未来数据)。因此,对于持续时间为30秒的训练日志,将采样59个训练片段。本文使用ADAM优化器对模型进行了16个周期的训练,学习速率为4e-3,beta分别为0.9和0.999,每GPU的batch size为16。

6.6 附加运动预测实验

6.6.1 迁移学习

迁移学习实验的结果总结在表8中。WIMP在不同的背景下分别用Argoverse 1.1和Argoverse 2进行训练和测试。正如预期的那样,当模型在相同的分布上训练和测试时(即训练和测试数据都来自Argoverse1.1,或者都来自Argoverse2),它的工作效果最好。例如,当在Argoverse 2(6S)上测试WIMP时,在Argoverse 2(6S)上训练的模型的minFDE为2.91,而在Argoverse 1.1(3S)上训练的模型的minFDE为6.82(即大约差2.3倍)。同样,在相反的设置中,当在Argoverse 1.1(3s)上测试WIMP时,在Argoverse 1.1(3s)上训练的模型的minFDE为1.14,在Argoverse 2(6s)上训练的模型的minFDE为2.05(即大约差1.8倍)。这表明,从Argoverse 2(beta)到Argoverse 1.1的迁移学习比相反的设置更有用,尽管在场景数量上更少。然而,公开发布的Argoverse 2运动预测版本(非beta 2.0版本)的大小与Argoverse 1.1相当

本文注意到,在不同序列长度上训练和测试序列模型是一种常见的做法(例如机器翻译)。因此,期望用3S训练的模型在6S水平上表现良好仍然是合理的。几个因素可能导致分布转移,包括不同的预测水平、城市、挖掘协议、目标类型。然而,值得注意的是,这些结果表明Argoverse 2比它的前身更具挑战性和多样性。

6.6.2 不同目标类型的试验

表9显示了不同目标类型的最近邻基线(没有地图先验)的结果。不出所料,行人的位移误差明显低于其他目标类型。这是因为它们以明显较慢的速度移动。然而,这并不意味着行人运动预测是一个解决的问题,人们应该关注其他目标类型。相反,这意味着本文需要提出更好的度量标准来捕捉这一事实,行人的较低位移误差往往比车辆的较高误差更重要。本文把这一行的工作留到将来的范围内。

4f7bde917e5957131b465ae546d773cd.png

表8:WIMP在不同版本的Argoverse运动预测数据集上训练和测试时的性能。训练和评估仅限于车辆类(车辆、公共汽车、摩托车)目标类型,因为在Argoverse 1.1中只有车辆。所有结果均为k=6,并在括号中指定了预测范围。值得注意的是,在3S horizon上训练的模型在较长的6S horizon上表现不佳。下面的“Argoverse 2”表示Argoverse 2(Beta)运动预测数据集。

d86cc9964827d3eb6226c4124d326914.png

表9:K=6时,最近邻基线在不同目标类型上的表现。每个评估指标的最准确预测目标类型以粗体突出显示。

参考

Wilson B, Qi W, Agarwal T, et al. Argoverse 2: Next generation datasets  for self-driving perception and forecasting[J]. arXiv preprint  arXiv:2301.00493, 2023.

7c8a76418f75cf98cfc60910b55f2397.png

c5e84724253702b967d3211a2ce2d52d.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

66a4cce3c7511d4cffc432647c8ed766.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值