数据集
我们通过查看Honda dataset的官网,
https://usa.honda-ri.com/datasets#navigate
并将他们现有的数据集整理如下。
Rank2Tell申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=rank2tell
DRAMA申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=drama
OATS申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=oats
LOKI 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=loki
EPOSH 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=eposh
TITAN 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=titan
TITAN 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=hevi
HSD 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=hsd
HDD 申请入口:https://usa.honda-ri.com/dataset-request-form?dataset=hdd
Rank2Tell 数据集 2024
Rank2Cell数据集是在旧金山湾区高度互动的交通场景中从一辆移动车辆上拍摄的。
使用配备有三台分辨率为1920×1200像素的灰点蚱蜢摄像机、Velodyne HDL-64E S2激光雷达传感器和高精度GPS的仪器化车辆拍摄的116个10FPS片段(每个约20s)。
收集车辆控制器局域网(CAN)数据,用于分析驾驶员如何操纵转向、刹车和油门。
所有传感器数据都使用ROS和定制的硬件和软件进行同步和时间戳。
包括视频级问答、对象级问答、激光雷达和3D边界框(带跟踪)、3个摄像头的视野(拼接)、重要对象边界框(每帧多个重要对象,具有多个重要性级别-高、中、低)、自由形式字幕(多个对象的每个对象有多个字幕)、自我汽车意图。
[1] E. Sachdeva et al., “Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning,” 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, 2024, pp. 7498-7507, doi: 10.1109/WACV57701.2024.00734.
OATS 数据集 2023
OATS数据集使用一种称为有序原子活动的新表示法来进行交互式场景理解。该表示将每个场景分解为一组有序的原子活动,其中每个活动由一个动作和相应的参与者组成,顺序表示场景的时间发展。这种设计还有助于识别重要的交互关系,如让行。该动作是一种基于周围道路拓扑的高级语义运动模式,我们将其分解为具有唯一ID的区域和角落。
OATS数据集包括在旧金山湾区十字路口拍摄的1026个视频片段(约20秒)。每个片段都用所提出的语言标记,从而产生59个活动类别和6512个带注释的活动实例,分辨率为1920×1200,帧率为10 fps。
[2] N. Agarwal and Y. -T. Chen, “Ordered Atomic Activity for Fine-grained Interactive Traffic Scenario Understanding,” 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, 2023, pp. 8590-8602, doi: 10.1109/ICCV51070.2023.00792.
DRAMA数据集 2023
DRAMA数据集是从东京高度互动的城市交通场景中的一辆行驶车辆上捕获的。使用SEKONIX SF332X-10X摄像机(30HZ帧率,1928×1280分辨率和60 H-FOV)和GoPRO Hero 7摄像机(60HZ帧率,2704×1520分辨率和118.2◦H-FOV。
数据集中包含 16960个动态图片 也就是gif 文件,可以看作是短视频。训练验证测试分布为11872:2544:2544.
视频与控制器局域网(CAN)信号和惯性测量单元(IMU)信息同步。
根据驾驶员对外部情况或事件的行为反应过滤这些视频,这些反应会激活车辆的制动。数据集中 包含不同类别的注释:视频级问答、对象级问答、风险对象边界框、自由形式标题,以及用于自我汽车意图、场景分类器和驾驶员建议的单独标签。
17066种风险情景包括12273辆车、3344辆(行人/骑自行车者)、1449辆(基础设施)
推理的自由形式描述包括992个独特的单词,总出现次数为306708次。
https://arxiv.org/abs/2209.10767
[3] Malla S, Choi C, Dwivedi I, et al. Drama: Joint risk localization and captioning in driving[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2023: 1043-1052.
ATA数据集 2023
ATA数据集是第一个研究教学视频中序列异常的公共数据集。32名志愿者在实验室环境中组装了三个玩具(飞机、桌子和录音机)。每个参与者完成每个组件三次,导致每人完成三项任务共九个序列。四台ZED Mini摄像机从四个角度(正面、侧面、头顶和全局)记录了参与者。
ATA数据集包括1152个未修剪的RGB视频,总计24.8小时,分辨率为1920×1080,帧率为30fps。该数据集包含15个原子动作,如“紧固螺钉”和“取板”,以及11个错误类别。
LOKI 数据集 2021
LOKI数据集是使用本田SHUTTLE DBA-GK9车辆从日本东京市中心收集的。该数据集包含密集城市环境中车辆和行人运动的视频。
超过8类(行人、汽车、公共汽车、卡车、面包车、摩托车手、自行车手、其他)的28K名代理人
644个场景,平均长度为12.6秒
复杂、交互繁重的场景:平均21.6个代理/场景
5 FPS带RGB、LiDAR和2d/3d边界框的带注释标签
标签
意图标签(停止、停车、左转等)
环境标签(交通标志、交通信号灯、道路拓扑等)
上下文标签(年龄、性别、天气、路况)
传感器
一台彩色SEKONIX SF332X-10X摄像机(30HZ帧率,1928×1280分辨率和60°视场(FOV))。
四个Velodyne VLP-32C 3D LiDAR(10赫兹自旋率,32束激光,射程:200米,垂直视场40°)。
MTi-G-710-GNSS/INS-2A8G4,带输出陀螺仪、加速计和GPS。
EPOSH 数据集 2021
本田公司(EPOSH)的以自我为中心的透视图和俯视图分割数据集由481个在旧金山湾区收集的带有正面摄像头的密集注释以自我为核心的道路视频片段组成。
该数据集侧重于对道路场景的理解,并以施工区为中心——数据集中的大多数视频片段中都存在施工区。
数据集具有透视图像注释(拓扑相关注释、规划相关注释、绿化注释、车道标记属性)。拓扑相关注释和规划相关注释的示例显示在下面的数据集可视化部分。数据集中大约有5623张带有此类注释的图像。
数据集具有Bird’e Eye View注释(拓扑相关注释、规划相关注释)。拓扑相关注释和规划相关注释的示例显示在下面的数据集可视化部分。数据集中大约有87503张带有此类注释的图像。
TITAN 数据集 2020
这是一个轨迹干扰的数据集,用于识别目标的动作。2020年的老数据集了。
TITAN数据集是从东京高度互动的城市交通场景中的一辆行驶车辆上捕获的。
使用GoPro Hero 7相机拍摄的700个视频片段,每个片段持续10-20秒
尺寸为1920 X 1200像素的图像,以10HZ的采样频率进行注释
从IMU传感器获得的同步里程计数据
75262辆车,395770人,146840辆四轮车,102774辆两轮车
50个标签,包括车辆状态和行动、行人年龄组和目标行人行动属性。
引入本田自我中心视图交叉口数据集(HEV-I),以研究交通参与者交互建模、未来对象定位,以及学习驾驶员在具有挑战性的驾驶场景中的行为。该数据集包括来自旧金山湾区的230个真实人类在不同十字路口驾驶的视频片段,这些视频片段是使用配备有不同传感器的仪器车辆收集的,包括摄像头、GPS/IMU和车辆状态信号。
Honda HEV-I 数据集 2019
HEV-I数据集首次与《基于自我中心视觉的智能驾驶辅助系统未来车辆定位》一起使用和发布,该论文发表在ICRA 2019上。
数据集包括以下规格和统计数据:
以10Hz的频率将230个视频转换为1280*640个图像,
对象类别:汽车、行人、自行车、摩托车、卡车、公共汽车、交通信号灯、停车标志。
自我行为:
直行,
加速、制动,
右转、左转,
让步(对行人、骑自行车的人或汽车),
停车(在停车标志或红绿灯处)
Honda HSD 数据集 2019
本田场景数据集是一个大规模的带注释数据集,用于实现动态场景分类。该数据集包含在旧金山湾区收集的80小时不同的高质量驾驶视频数据片段。该数据集包括道路位置、道路环境、天气和路面状况的时间注释。HSD具有以下规格:
该数据集包含11类道路场所——三向交叉口、四向交叉口和五向交叉口,高架桥、铁路道口、施工区、左侧与戈尔合并、右侧与戈尔合并,左侧与戈尔分支,右侧与戈尔分支、斑马线。
该数据集涵盖了4类道路环境——农村、城市、高速公路和匝道,以及4种天气条件——雨天、晴天、阴天和雾天。
大多数类都有3个时间子类,包括接近、进入和通过。合并和分支类具有接近和通过的子类,而斑马线类刚刚接近。
该数据集包含这11个类中总共约20000个实例。
下图概述了数据集中的关键统计数据。
Honda H3D 2019
H3D本田3D数据集
H3D是一个大规模的全环绕3D多目标检测和跟踪数据集。它是从HDD数据集收集的,这是一个在旧金山湾区收集的大规模自然驾驶数据集。H3D包括以下特征:
完整的360度激光雷达数据集(来自Velodyne-64的密集点云)
160个拥挤且高度互动的交通场景
1071302三维边界框标签
8类常见的交通参与者(每2Hz手动注释一次,10Hz数据线性传播)
以仅用于3D检测和跟踪算法的最新算法为基准。
Honda HDD 数据集 2018
我们提出了HRI驾驶数据集(HDD),这是一个具有挑战性的数据集,可以研究在现实生活环境中学习驾驶员行为。该数据集包括在旧金山湾区使用配备不同传感器的仪器车辆收集的104小时真实人类驾驶。下面的视频提供了数据集中以目标为导向的驾驶行为示例。GPS坐标和来自CAN总线的传感器值显示在前置摄像头流的顶部。
驾驶员行为检测数据集
我们看现有的研究,尤其是视频理解,用DRAMA数据集对于危险分析,进行防御性驾驶是非常有意义的。