The highD Dataset: A Drone Dataset of Naturalistic Vehicle Trajectories on German Highways for Valid

星辰和大海都需要门票

已于 2023-06-02 14:20:37 修改

阅读量5.4k

点赞数 5

分类专栏：论文解析文章标签：人工智能

于 2023-05-29 15:58:57 首次发布

本文链接：https://blog.csdn.net/qq_41545537/article/details/130923496

版权

论文解析专栏收录该内容

6 篇文章

订阅专栏

高自动驾驶数据集：用于验证高度自动化驾驶系统的德国高速公路上自然车辆轨迹的无人机数据集

论文整体说明
- 论文主要讲述了以下内容：
- - （1）highD数据集框架介绍
  - （2）highD数据集可视化中，是如何利用这三个csv文件生成可视化场景的？
摘要
1 介绍
2 以前的工作
3 基于安全验证的测量方法分析
- A.对测量方法的要求
- B.测量方法的比较
4 高级数据集收集管道
5 数据集的统计和评估
6 对提取的车道变化的分析
7 结论

文章pdf下载链接：https://arxiv.org/ftp/arxiv/papers/1810/1810.05642.pdf
参考连接：知乎–自动驾驶开源轨迹数据集汇总和测评

论文整体说明

“The highD Dataset: A Drone Dataset of Naturalistic Vehicle Trajectories on German Highways for Validation of Highly Automated Driving Systems” 是一篇关于高度自动驾驶系统验证的论文，介绍了高D数据集，该数据集是通过无人机在德国高速公路上收集的，用于研究和验证高度自动驾驶系统的自然车辆轨迹。

论文主要讲述了以下内容：

动机和背景：论文提出了在高度自动驾驶系统验证中的挑战和需求，并介绍了现有数据集的局限性和不足之处。
数据收集：论文详细描述了使用无人机进行数据收集的方法和流程。无人机在高速公路上飞行，从空中拍摄车辆，并记录车辆的位置、速度、行驶轨迹等信息。
数据处理和标注：论文介绍了对收集到的数据进行处理和标注的过程。包括车辆跟踪、轨迹生成、车辆属性标注等步骤。
数据集特点和统计信息：论文提供了高D数据集的特点和统计信息，包括数据集的大小、车辆数量、车辆类型、道路场景等。
数据集的应用和验证：论文讨论了高D数据集在高度自动驾驶系统验证中的应用，以及使用数据集进行轨迹预测、行为建模等任务的实验结果。
结论和展望：论文总结了高D数据集的贡献和优势，并探讨了未来进一步发展和扩展数据集的可能性。

该论文的主要目的是介绍高D数据集，并强调其在高度自动驾驶系统验证中的重要性和价值。通过提供真实的自然车辆轨迹数据，高D数据集为研究人员和工程师们提供了一个有力的工具来评估和验证高度自动驾驶系统的性能和安全性。

（1）highD数据集框架介绍

pickle文件——通过以下3个csv文件程序生成的

在highD数据集中，pickle文件是一种用于序列化和反序列化Python对象的文件格式。它可以将Python对象转换为字节流，以便可以在不同的Python环境中保存、传输和重建这些对象。

在highD数据集中，pickle文件通常用于存储和加载预处理的数据，如车辆轨迹、元数据、特征向量等。通过将这些数据存储为pickle文件，可以方便地保留其结构和内容，并在需要时快速加载到Python程序中进行进一步的处理和分析。

要加载pickle文件并获取其中存储的Python对象，可以使用Python的pickle模块。

recordingMeta.csv：
-该文件包含整个高速公路录制的元数据信息。它提供了有关录制的基本信息，如录制ID、日期、时间、摄像机ID、录制时长等。这些元数据信息可用于了解高速公路录制的背景和条件。
tracks.csv：
该文件包含了高速公路上车辆的轨迹数据。每行代表一个车辆在不同帧上的观测数据，包括时间戳、车辆ID、位置坐标、速度、加速度等。通过这些轨迹数据，可以分析车辆的运动行为、车速变化、车道变更等信息。
tracksMeta.csv：
该文件提供了与每个车辆轨迹相关的元数据信息。它包含了每个轨迹的静态特征，如车辆长度、宽度、类型等。此外，还提供了每个轨迹的其他属性，如起始帧、结束帧、运行时间、行驶距离等。

这三个CSV文件是highD数据集中重要的组成部分，它们提供了关于高速公路录制、车辆轨迹以及车辆特征的详细信息，有助于进行数据分析和场景理解。

.png图片

在highD数据集中，.png图片文件通常用作背景图像，用于可视化高速公路场景。这张图片可以作为背景加载到可视化程序中，以提供更真实的视觉效果。该图片可能包含高速公路、车道线、交通标志等元素，以帮助模拟高速公路的真实环境。通过将车辆轨迹和其他可视化元素绘制在背景图片上，可以创建更加逼真和具有沉浸感的高速公路场景可视化。

（2）highD数据集可视化中，是如何利用这三个csv文件生成可视化场景的？

在highD数据集的可视化中，可以利用这三个CSV文件生成可视化场景。具体步骤如下：

读取recordingMeta.csv文件：

该文件包含有关高速公路录制的元数据信息。可以读取该文件以获取有关录制的日期、时间、录制时长等基本信息。

读取tracks.csv文件：

该文件包含了车辆的轨迹数据。可以读取该文件以获取每个车辆在不同帧上的位置、速度等信息。根据这些数据，可以绘制车辆在高速公路上的运动轨迹。

读取tracksMeta.csv文件：

该文件提供了与每个车辆轨迹相关的元数据信息。可以读取该文件以获取每个车辆的静态特征和其他属性，如车辆类型、起始帧、结束帧等。根据这些数据，可以对车辆进行分类、标记不同类型的车辆，以及绘制车辆的特定属性。

结合读取的数据进行可视化：

利用读取的数据，可以使用绘图库（如matplotlib）绘制高速公路场景的可视化表示。可以根据车辆的位置信息在图上标记车辆的运动轨迹，使用不同的颜色或符号表示不同类型的车辆，根据录制的时间信息调整可视化的时间轴等。

通过结合这三个CSV文件中的数据，可以生成高D数据集中的可视化场景，以便更好地理解和分析高速公路上的车辆运动行为、交通流量等信息。

摘要

摘要-基于场景的高度自动化车辆的安全验证测试是一种很有前途的方法，目前正在研究和工业中进行研究。这种方法在很大程度上依赖于来自真实场景的数据来获得进行测试所需的场景信息。测量数据应以合理的努力收集，包含道路使用者的自然行为，并包括所有与描述已确定的场景相关的数据。然而，目前的测量方法至少不能满足其中一项要求。因此，我们提出了一种新的方法，从空中的角度测量数据，以实现基于场景的验证，满足上述要求。此外，我们还提供了一个来自德国高速公路的大规模自然车辆轨道数据集，称为highD。我们根据数量、种类和所包含的场景来评估数据。我们的数据集包括来自6个地点的16.5小时的测量数据，包括11万辆汽车，总行驶距离为45 000公里和5600个记录的完整车道变化。高数据集可在http://www.highD-dataset.com在线获得

1 介绍

高度自动化驾驶（HAD）概念的技术证明已经在许多演示和试驾中显示出来。然而，现有的安全验证过程的方法和工具并不适合这些系统的复杂性，并且在成本和时间资源[1]方面将是低效的。安全验证和保证飞马[2]等高度自动化车辆的安全验证项目和启用-S3[3]，旨在基于场景开发合适的流程。在对自动驾驶系统[4]进行影响评估时，也使用了基于场景的方法。这些方法严重依赖于来自真实世界流量的度量数据来提取、描述和分析场景。为了满足描述场景所需的复杂性和必要的详细程度，我们定义了五个场景描述层，如图2所示，我们定义了构造飞马索斯项目内德国高速公路[5]的情景描述。

安全验证的常见数据来源是驾驶测试、自然驾驶研究（NDS）、现场操作测试（FOT）和试点研究[1]。测试车辆、配备传感器的车辆或系列生产车辆用于测量车辆的环境并记录可识别总线数据。一种新的方法是使用安装在路边专用桅杆[6]或路灯上永久监测某一路段。然而，这些测量方法也有几个弱点。由于传感器的物理限制和传感器的可见性，动态场景描述和自然行为的必要质量并不总是给出。

因此，我们建议使用配备摄像头的无人机从空中角度测量每辆车的位置和运动，以进行基于场景的验证。带有高分辨率摄像头的无人机具有从所谓的鸟瞰视图中捕捉交通信息的优势，并具有较高的纵向和横向精度。从这个角度来看，关于物体高度的信息丢失了，但车辆不能被其他车辆遮挡。然而，物体的高度对安全验证的相关性有限，可以从物体类型中进行估计。在海拔100米到几百米的高度，无人机几乎看不到过往的车辆，这导致了完全不受影响的自然驾驶行为。在我们的案例中，一架无人机在德国高速公路旁盘旋，录音覆盖了约420米的路段，如图3所示。我们在整个论文中使用通用术语无人机作为无人机，在我们的案例中，无人机是一个多直升机。

在本文中，我们展示了该方法的可行性，并分析了所使用的方法。此外，我们还提供了一个大规模的自然车辆轨迹数据集。

德国高速公路被称为highD，它代表高速公路无人机数据集。我们将高D数据集与研究中使用的其他数据集进行比较。虽然该数据集最初是用于安全验证和影响评估，但我们也希望促进对交通模拟模型、交通分析、驾驶员模型、道路用户预测模型和进一步的主题的研究，这些都依赖于自然的交通轨迹数据。

2 以前的工作

在本章中，我们首先分析了以前关于使用无人机作为交通监测传感器的工作。随后，我们提供了一个关于现有的自动驾驶数据集的概述，重点是安全验证的使用。由于它接近highD，我们详细分析了其中一个数据集。

A. 用于记录道路使用者的无人机

2005年，[7,8]已经对配备摄像头的无人机视频数据的交通监测进行了研究。然而，大部分工作的目标是提取宏观数据，如交通密度、交通流量和交通速度[9–12]。由于道路使用者的位置没有以分米精度提取，因此所得到的轨迹不适用于高度自动化车辆的安全验证。

利用斯坦福无人机数据集[13]，从无人机视频数据中创建了第一个包含多个道路用户轨迹的公共数据集。该数据集旨在用于开发行人行为和交互模型。录音工作在斯坦福校区的八个地点进行，其中不包括公共道路。所有录音的总持续时间约为17个小时。虽然该数据集包含了汽车和公共汽车，但它们在这8个地点中的7个地点中只占所有道路用户的不到5%。在其中一个地方，汽车约占道路使用者的30%，但大多数都停在那里。因此，该数据集不适合进行安全验证。

据我们所知，航空视频数据在高度自动化车辆的安全验证中的适用性尚未得到证明。此外，目前还没有使用无人机视频数据创建的高速公路上车辆轨迹的公共轨迹数据集。

B. 用于自动驾驶的数据集

在过去的十年里，有几个项目涉及收集机载传感器记录的驾驶数据。在欧洲，由欧盟委员会资助的EuroFOT项目是首批大规模的FOT项目之一，并于2012年结束。大约1.200名司机[17]收集了超过3500万公里的数据。数据包括机载can总线、原始视频、GPS位置、前置雷达和摄像头。该数据仍被用于影响评估和安全性验证[4]的研究。在美国，在第二项战略高速公路研究计划（SHRP 2）中进行了一项自然主义驾驶研究。在2010年至2012年期间，有3150名志愿者使用他们的车辆记录了79.7公里。记录包括前置雷达、原始视频、车辆总线数据和司机[15]视频。然而，这两个数据集都不能免费提供给公众。

在过去的几年里，一些公共数据集，如下一代模拟（NGSIM）数据集[18,19]，KITTI [20,21]和城市景观[22]，以促进自动驾驶的研究。虽然NGSIM最初不是用于自动驾驶，而是用于交通模拟[18,19]，但该数据集现在用于自动驾驶研究[23]。由于KITTI和城市景观数据集包含了来自车载摄像机的单个注释图像，这些数据集主要用于计算机视觉算法的开发，如目标检测和场景理解。

除了图像集之外，KITTI数据集还包括来自激光扫描仪和对象轨迹的数据。然而，城市景观和KITTI主要关注城市交通场景，而KITTI也包含了一些高速公路交通场景。因此，这两个数据集与高速公路场景几乎没有相关性。相比之下，NGSIM主要关注建筑物在高速公路和城市交通道路上的车辆轨迹，从而形成鸟瞰图。NGSIM是与本文引入的高级数据集最相似的数据集。因此，我们更详细地分析了NGSIM，并将highD与NGSIM进行了比较。

C. NGSIM数据集

NGSIM是当今最大的自然车辆轨迹数据集，被广泛用于交通流量和驾驶员模型[24]的研究。由美国的交通部负责智能交通系统联合项目办公室（JPO）收集了2005年至2006年期间的交通视频数据。该数据集包括四个不同的记录地点：加州埃默里维尔州的80号州际公路（I-80），洛杉矶的美国101号公路（US 101），洛杉矶的兰克希姆大道（LB）和佐治亚州亚特兰大的桃树街（PS）。虽然I-80和US- 101的高速公路与德国高速公路相当，但LB和PS的录音包含了城市场景。因此，我们在下面只考虑I-80和US-101。在每个地点，多个同步摄像机位于相邻的多层建筑的顶部，记录不同的重叠路段，覆盖范围在500米到640米之间。这些录音的总持续时间为90分钟。在I-80旁边，7个摄像头安装在97米高的多层建筑顶部，而在美国101研究区，8个摄像头安装在相邻的154米[25]高的多层建筑顶部。倾斜的摄像机对齐需要覆盖整个研究区域。

如之前的工作[24,26]所示，原始的NGSIM轨迹不能用于进一步的分析。假阳性的轨迹碰撞和物理上不合逻辑的车辆速度和加速度恰好发生在数据集中。为了消除错误的轨迹行为，[26]使用轨迹本身细化了部分数据集的纵向车辆运动。除此之外，[24]表明，这种方法对每种情况都是不够的，首先必须手动从记录中重新提取车辆，以获得改进的纵向轨迹。

3 基于安全验证的测量方法分析

A.对测量方法的要求

为了收集适合用于基于场景的安全验证的数据，必须使用适当的测量方法。一般来说，该程序必须能够以足够的准确性捕捉交通的所有相关方面。虽然具体的要求取决于所需的应用程序，但我们推导出了以下五个一般要求：

自然主义行为：所有道路使用者的行为必须是自然主义的，不受测量结果的影响。理想情况下，每个道路使用者都不知道测量值，因此其行为不受影响。
静态场景描述：必须捕获属于5层场景描述模型[5]的前三层的信息，包括车道数、车道宽度、速度限制和道路曲率等。
动态场景描述：数据中必须包含属于描述道路用户移动的5层场景描述模型[5]的第四层的信息。道路使用者不能因为遮挡而被排除在外，但必须准确地测量他们的位置和运动。最后，数据还应该包含关于5层模型的第五层的所有信息，它代表了环境条件。
努力效率：总的努力包括建立测量方法的初始努力和永久的操作努力。努力效率是测量的场景与长期和初始努力的比率。
灵活性：理想情况下，测量值应该涵盖交通的每一个差异。因此，数据不应局限于某一路段，而应捕获一天中的每一个时间和每一个环境条件的数据

B.测量方法的比较

下面，我们将基于无人机的方法与现有的测量方法进行比较。对比结果如图4中的雷达图所示。由于车载测量存在几种测量活动设置，这在未来可能会发生变化，我们做了以下假设。首先，我们考虑了一个针对带有串联生产传感器的车辆的NDS设置，并假设一个融合的环境模型只存在于车辆的前端。其次，对于配备了HAD传感器的车辆，我们考虑了一个试点研究和一个基于照相机、激光扫描仪和雷达传感器的360度环境模型的可用性。在试点研究中，我们进一步假设驾驶员永久知道测量值，测试车辆被其他道路使用者从外部识别，例如由于额外安装的传感器。

从空中的角度来看，自然主义的行为是保持最好的，因为没有道路用户意识到测量。对于NDS的研究，可以假定周围的道路使用者不知道测量结果，其行为不受影响。然而，记录的行为可能不是完全自然的，因为司机在驾驶时意识到记录，而司机可能不能真正代表真正的司机人口。在初步研究中，所有道路使用者的行为都可能会受到影响，因为测试车辆通常可以被识别出来。例如，外部安装的传感器的不典型外观可能会影响测量车辆周围驾驶员的行为。路边基础设施传感器可以生成观测区域交通的准确概述。然而，这些传感器被司机感知，可能与交通执法摄像头混淆，导致非典型驾驶行为。

当使用基础设施传感器或无人机时，静态场景描述可以从数字地图数据中获得，因为这两种方法都在有限数量的固定位置使用。此外，还可以从空中的角度提取静态场景信息。HAD传感器提供了高度精确的定位和综合检测，例如，静态场景描述的车道标记。最后，NDS可能只包含不准确的自我定位或仅包含简单的信息，比如传感器感知到的当前车道的车道标记。

从空中的角度来看，可以实现高质量的动态场景描述。每个车道上的所有车辆都可以以持续的高精度被感知。对于机载测量，车辆必须配备适合每个传感方向的适当传感器。当前串联生产传感器的数据质量通常是不够的，其数据通常难以访问。此外，它们只能在相当有限的范围内捕获环境，因此，无法完全描述该场景。带有HAD传感器的车辆具有360度的环境传感，但测量范围有限，精度仍随着距离的增加而降低。多个传感器的感知必须使用传感器融合算法进行融合。基础设施传感器可以准确地测量某一路段上每个物体的位置和运动。然而，经过靠近传感器的物体仍然可以遮挡其他物体。

NDS具有非常高的努力效率，因为可能只需要进行很小的车辆修改，而且车辆的操作就好像没有测量一样。路边基础设施传感器在运行中也非常有效，但需要很高的初始安装努力。在最初的飞行批准努力后，无人机必须由一名经验丰富的无人机飞行员操作。无人机飞行员还必须驾驶到所需的测量位置。然而，无人机可以记录下超过1000公里的驾驶距离。使用HAD传感器的初步研究在设置车辆和选择司机方面有很高的初始努力。通常，车辆必须定期进行保养和检查。在未来，来自带有HAD传感器的车辆的测量数据，将变得更加有效。

相比之下，测量车辆的灵活性是最高的，因为它们通常可以在任何道路上和几乎任何环境条件下驾驶。无人机在测量位置上基本上是灵活的，但合法的飞行限制和环境条件限制了在白天和平静的天气条件下进行测量。基础设施传感器可以在大多数环境条件下和大多数地点运行，但安装必须与道路密切配合进行批准和协调操作，一旦安装完毕，该位置就不能轻易地更改。

除了上述的优点和局限性外，航空视角在在线处理方面也存在缺陷。精确的测量要求较高的视频分辨率，需要强大的算法和不可用的高处理能力。然而，我们创建数据集的目的并不需要在线处理。最后，航空视角在数据隐私保护方面具有优势。轨迹数据和无人机拍摄的原始视频数据在隐私和数据保护方面都不是至关重要，因为无法从高海拔识别道路用户。用车载传感器记录的数据在隐私和数据保护方面是敏感的，因为随着时间的推移，可以从数据中推断出位置或运动模式等私人信息。如果摄像头被用作基础设施传感器，它们可能会识别车牌甚至面孔。因此，从数据保护的角度来看，这些摄像机的原始视频数据是有问题的。

综上所述，航空视角在自然驾驶行为、静态和动态场景描述以及数据隐私保护等方面具有诸多优势。缺点在于与车辆车载测量相比的灵活性，以及与使用串联生产传感器的机载测量相比的工作效率。

4 高级数据集收集管道

A highD

该数据集包括2017年和2018年期间德国科隆周边高速公路的11万辆无人机视频中提取的汽车和卡车（见图5）。在6个不同的地点，有60段录音，平均长度为17分钟（共16.5小时），覆盖了一段约420米长的路段。每辆车的平均持续时间为13.6秒。从这些记录中，我们使用计算机视觉算法自动提取车辆，并手动标注基础设施。

数据集可以从http://www.highDdataset.com下载，而Matlab和Python源代码可以处理数据，创建可视化和提取操作

B Video Recordings

这些视频以4K（4096x2160）分辨率以25帧/秒的速度录制，并使用消费者四轴飞行器DJI幻影4 Pro Plus以尽可能高的质量保存。无人机直接在德国高速公路附近盘旋，以减少透视扭曲，并尽可能少地记录车辆的侧壁。路面上单个像素的大小约为10x10厘米。这些录音只在从早上8点到下午5点的阳光明媚和无风的天气中进行，以最大限度地提高录音的质量，并尽量减少由运动造成的稳定的需要。虽然四轴飞行器使用飞行稳定和基于万向架的相机稳定，平移和旋转不能完全避免。因此，使用OpenCV通过估计将每帧背景映射到对应第一帧背景的转换来稳定视频记录。此外，第一帧被旋转，使车道标记是水平的。由于这些转换，所记录的高速公路路段的实际长度在每一帧中都略有不同。

C. 静态和动态对象注释

由于该数据集中包含了超过11万辆车，因此手动注释是不可行的。因此，我们选择了一种基于最先进的计算机视觉算法的算法方法。我们决定使用U-Net [27]的自适应，这是一种常见的语义分割的神经网络架构。该网络估计每一帧的每个像素，它是否属于车辆或背景。通过利用所得到的分割图来检测属于车辆的像素簇来创建边界框。静态对象，如车道标记、交通标志和速度限制，都是手动标注的，因为与车辆的标注相比，工作量可以忽略不计。

D 跟踪后处理

由于检测在每一帧上独立运行，因此需要一种跟踪算法来将连续帧中的检测与跟踪连接起来。在这个过程中，两帧的检测被它们的距离匹配，如果没有发现可行的匹配则丢弃。通过这样做，可以完全消除假阳性检测。如果由于交通标志遮挡，车辆在连续几帧中没有被检测到，则预测运动，直到新的检测与车辆的轨迹相匹配。

额外的后处理被应用于检索在x和y方向上的平滑位置、速度和加速度。使用Rauch-Tung-Striebel (RTS) Smoothing [28]（劳奇-东-斯特里贝尔（RTS）平滑[28]）和a
constant acceleration model（恒定加速度模型），对每辆车的轨迹考虑到所有的检测进行了细化。这将定位误差提高到一个像素大小的水平。

E. 机动分类

除了原始的车辆轨迹外，我们还为每辆车提取了一组预定义的机动动作，以简化对数据集的工作，例如用于分析。据我们所知，在高速公路上还没有确定的机动清单，我们使用我们自己的机动清单。每个操作都由一组预定义的规则和阈值来检测。除了自由驾驶和汽车跟随之外，这些动作并不相互排斥。我们使用[29]的定义来决定车辆是否受到前一辆车的影响还是使用默认驱动程序。通过[30]中定义的规则检测关键操作。检测到的完整动作列表为：

自由驾驶（纵向不受影响驾驶）：不受前一辆车辆影响的驾驶
车辆跟踪（受纵向影响的驾驶）：主动跟踪另一辆车辆
关键操纵：对先前车辆的低碰撞时间（TTC）或前进时间（THW）
车道变更：穿越车道的标记和保持在一个新的车道上

此外，每辆车辆的前后车辆自身和相邻车道的ID、距离车头距（DHW）、THW和TTC。我们提供了从数据集中提取这些场景的脚本，以简化参数或操作的调整。

F. 数据集格式

该数据集包括每个记录的四个文件：一个特定高速公路区域的航拍照片和三个CSV文件，包含关于地点、车辆和提取的轨迹的信息。第一个文件包括场地的位置、驾驶车道、交通标志和每个车道上的速度限制。每个轨道的摘要，包括车辆尺寸，车辆类别，驾驶方向和平均速度由第二个文件给出。如速度、加速度、车道位置以及在最后一个文件中存储每条轨道。

5 数据集的统计和评估

A.数据集的一般情况和大小的比较

表I给出了在NGSIM和highD数据集中可用的数据量的比较。NGSIM提供了在两个不同地点（每个地点45分钟）的记录持续时间约为90分钟的数据，而highD包括了在6个不同地点收集的超过16.5小时的记录数据。在录音之间，无人机的电池被交换，无人机由飞行员降落/启动。highD包括典型的德国高速公路，每个方向有两或三个车道，而NGSIM记录站点是每个方向有5或6个车道的高速公路。

比较记录的车辆数量，highD包含的车辆数量几乎是NGSIM的12倍。虽然这两个数据集包含的摩托车数量可以忽略不计（因为大多数关于高数据的记录都发生在冬季），但汽车和卡车之间的比例是不同的。在NGSIM.10)中，只有3%的车辆是卡车。这使得它非常专注于汽车，而高端汽车的市场份额为23 %。虽然高数据集包含的旅行距离是它的9倍，但所有车辆的总旅行时间几乎是前者的3倍，因为NGSIM数据集中存在大量密集的流量。

B 包含数据的种类

high D数据集不仅比NGSIM包含更多的数据，而且数据也具有更高的多样性。主要原因是更多的录音，包括一天中的不同时间和更多的录音地点。如图6a中平均轨道速度直方图所示，高提供了更宽的平均速度范围。在80 km/h和120 km/h处的峰值是卡车和汽车的典型速度在录音现场。尽管NGSIM记录点的速度限制为105 km/h，但平均速度超过75 km/h的轨道完全缺失。在高密度数据中，由卡车比率随时间测量的车辆类型的组成在0%到50%以上之间变化，而在NGSIM数据集中，它随着时间的变化保持在10 %以下（见图6b）。

C. 质量评价与比较

用于检测的语义分割神经网络的初始训练集由大约3000个图像补丁组成。这些补丁包括从不同光照条件下不同地点的记录中提取的车辆。增加包括翻转、增加高斯噪声和改变对比度，使数据集的大小增加到12 000辆车。检测阈值的选择有利于一个较低的假阴性率来检测大多数车辆。在数据集中，像独特的车辆，通过强烈变化的相邻帧中检测到的边界框大小来识别。然后，对它们进行标记，并添加到训练集中，进行第二次训练迭代。在一组验证图像上进行测试，训练后的模型检测到约99 %的车辆，同时保持假阳性检测保持在2%。与手动创建的标签相比，车辆中点在纵向和横向方向上的平均位置误差均低于3 cm。下一步的跟踪算法通过简单的一致性检查去除所有的假阳性检测，并在车辆为n的情况下预测车辆的位置。

与此相比，一种跟踪车辆前端的算法被用来创建NGSIM。在图7中，可以比较原始NGSIM数据集和高密度的结果质量。NGSIM数据集的边界框很少匹配车辆的形状，而且有几个异常值几乎只包含路面。这与[24,26]中的分析相匹配，说明原始结果包含许多错误。这些尤其发生在记录不同片段的摄像机之间的过渡，是由图像拼接引起的。此外，由于必要的纠正和不可避免的闭塞跟踪车辆前面，轨道有不同的质量。因此，不现实的速度和加速度经常发生。此外，平行移动的车辆有时被分配到同一车道，导致假阳性碰撞，而不是超车机动，由于错误在横向位置。因此，原始数据集不应该在使用时没有预处理，而[26]发布了一个没有不可行的轨迹和平滑的纵向轨迹的更新版本。但是[24]指出，由跟踪系统引起的许多错误不能单独通过过滤来解决。相反，需要使用更好的算法从非公开的原始录音中重新提取这些音轨。

因此，由于使用单一的高分辨率相机，高帧率和最先进的检测系统，高数据集具有几个优点。与NGSIM相比，不需要对轨迹进行进一步的后处理，因为多个后处理步骤去除所有假阳性检测，并平滑提取的轨迹平滑。

D. 机动统计

最后，我们分析了第四节中定义的车道变化和关键机动的发生情况。高级数据集包括超过11 000个车道变化，其中只有5600个完全在观测区域进行。这是NGSIM所包含的两倍，而每辆车的0.10比0.45的车道变更率更低。其中一个原因是，平均交通密度较低，车道数量较少，导致车道变化较少。此外，关键机动发生在high D数据集中。分析表明，这些主要是由尾翼机动和危险的变道机动引起的。

6 对提取的车道变化的分析

作为如何将high D数据集用于高度自动化驾驶系统的系统级验证的一个例子，我们对提取的车道变化机动进行了分析。对机动和周围车辆进行参数化，并进行统计。参数和参数组合的频率分布可以用来指示在什么情况下发生什么样的车道变化。这些都是在模拟或测试轨道中有效地选择和加权测试场景的必要统计数据。

A.变道轨迹模型

车道变化通常使用正弦曲线、样条曲线或多项式[31]进行建模。为了简单起见，我们使用一个对称模型，使用两个单独的多项式来进行纵向和横向运动。当为纵向运动选择一个二次多项式时，一个5度的多项式用于横向运动，因为横向运动与车道的变化更相关。假设换车道的车辆在变道开始和结束时既没有横向或纵向加速度，也没有横向速度。因此，一个车道变更仍有5个自由度，我们选择了直观的参数，如图8a所示。这些参数包括到交叉车道标记的横向距离和在变道开始/结束时的纵向速度。第五个参数是变道的持续时间。

如第四节所述，通过车道交叉点检测到车道变化后，横向运动决定了变道机动的开始和结束。来确定该模型的参数的值描述一个最好的轨迹，制定并求解一个优化问题。

B.对变道环境的描述

变道车辆的周围车辆会诱发和影响变道，因此会被纳入统计数据。在换车道时，我们选择初始车道上的前一辆车辆和新车道上的前后尾车辆作为最相关的周边车辆。提取的参数包括最小的DHW、THW、TTC和间隙大小（见图8b）。如[4]所示，这些参数允许分析诱导条件，并评估所执行的变道的临界性。

C. 统计量

作为高度自动化驾驶系统验证的相关统计的一个例子，我们从新车道上尾部车辆的角度分析车道变化。这种车辆被认为是自动的，并感知到车道的变化作为一个切口，它可能必须作出反应。从5600个参数化的高值车道变化中，我们从右侧提取了850个插入场景。为此，我们在图9中显示了当车辆进入车道时的THW的分布以及对自我车速的线性依赖。

7 结论

我们提出了一种新的收集高度自动驾驶系统安全验证数据的方法，并提出了一种新的德国高速公路上的自然车辆轨迹数据集。利用无人机捕获的视频数据和计算机视觉算法，我们自动从16.5小时的视频记录中提取了超过45 000公里的自然驾驶行为。对车辆轨迹进行后处理后，从轨迹中提取一组四种机动和交通统计数据。我们证明了highD适合作为安全验证的数据源，因为典型的机动和机动间和机动内部的概率可以被提取。我们将在论文发布后发布该数据集。我们的计划是增加数据集的大小，并通过额外的检测机动来增强它，用于高度自动化驾驶的安全验证。