[ADAS预研笔记]自动驾驶常用训练数据库

最新推荐文章于 2025-02-24 21:48:18 发布

Zhu._.

最新推荐文章于 2025-02-24 21:48:18 发布

阅读量1.2k

点赞数 1

分类专栏： ADAS预研笔记文章标签：笔记自动驾驶深度学习

本文链接：https://blog.csdn.net/Kidwish_mini/article/details/131305180

版权

ADAS预研笔记专栏收录该内容

19 篇文章

订阅专栏

自动驾驶数据集多为分割任务数据集，或同时包含检测标签和分割标签，对于backbone的预训练，多使用常规的图像分类数据集和目标检测数据集，如：ImageNet、Pascal VOC、COCO等，对于常规数据集，此处不做介绍。

数据集的形式通常为原始图片/视频 + 标签文件，对于分类、目标检测任务，标签文件通常为json格式，对于分割任务，标签文件通常为掩码格式，示例如下：

ApolloScape车道线原始图片及掩码标签示例：

驾驶数据集

MIT DriveSeg

基本介绍

官网：MIT DriveSeg Dataset for Dynamic Driving Scene Segmentation | MIT AgeLab

MIT联合丰田公司在2020年6月份发布的，用于动态驾驶场景分割的MIT DriveSeg数据集，并提供完全开放的免费下载。

有两个版本：

MIT DriveSeg (Manual) ：手动标注版本，在马萨诸塞州剑桥市繁忙的街道上白天旅行期间捕获的2分47秒的高分辨率视频，面向车前的逐帧像素级语义标记数据集
MIT DriveSeg (Semi-auto) ：半自动标注版本，从MIT高级车辆技术（AVT）联盟数据中提取的67个视频片段，与手动版的区别在于：1）半自动标注(比手动版粗略) 2）帧数更多(20100帧vs5000帧) 3）分辨率略低(720Pvs1080P)

下载方式

官方链接：（免费下载，需注册IEEE账号）

MIT DriveSeg (Manual) Dataset | IEEE DataPort

MIT DriveSeg (Semi-auto) Dataset | IEEE DataPort

数据集内容

MIT DriveSeg (Manual) ：

视频数据：2分47秒(5,000帧)，1080P(1920x1080)，30fps
分类类别：共12类：vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building, terrain (horizontal vegetation), vegetation (vertical vegetation), pole, traffic light, and traffic sign

MIT DriveSeg (Semi-auto) ：

视频数据：67个片段：10秒(20,100帧)，720P(1280x720)，30fps
分类类别：共12类：vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building, terrain (horizontal vegetation), vegetation (vertical vegetation), pole, traffic light, and traffic sign

数据集解压后有两个文件夹和一个json文件（以MIT DriveSeg (Manual)为例）：

config.json：12个类别label及其id
frames文件夹：5000个png图片，对应5000帧画面
labels文件夹：5000个png图片，每个png图片对应那一帧画面，像素点的颜色数据即label的id(1~12)（直接打开这个png文件显示效果接近纯黑图片）

KITTI

基本介绍

官网：The KITTI Vision Benchmark Suite

由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。

包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。

总体上看，原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’五类。原始数据采集于2011年的5天，共有180GB数据。

对于3D物体检测，label细分为Car, Van, Truck, Pedestrian, Person(sitting), Cyclist, Tram，Misc。

各场景下的目标对象比例如下：

记录平台是一辆大众帕萨特B6，安装了如下传感器：

1个惯导系统 Inertial Navigation System (GPS/IMU): 型号OXTS RT 3003
1个激光雷达，型号Velodyne HDL-64E（每秒10帧，64线）
2个灰度相机（一组），140万像素，型号Point Grey Flea 2 (FL2-14S3M-C)：1382 x 512，每秒10帧，由激光雷达触发，快门速度是动态调整的，最大快门时间为2ms
2个彩色相机（一组），140万像素，型号Point Grey Flea 2 (FL2-14S3C-C)：1382 x 512，每秒10帧，由激光雷达触发，快门速度是动态调整的，最大快门时间为2ms
4个变焦镜头，焦距4-8mm，型号Edmund Optics NT59-917

下载方式

数据集分为多个分任务：如object、tracking等，在对应页面下可以下载对应的数据集；（需注册并提交下载目的描述，不少于100字符）

The KITTI Vision Benchmark Suite

数据集内容

object分任务下有三个数据集：

Object Detection Evaluation 2012 (2D)：7481张训练图片 + 7518张测试图片，png格式彩色图片
3D Object Detection Evaluation 2017 (3D)：7481张训练图片与点云数据 + 7518张测试图片与点云数据
Bird’s Eye View Evaluation 2017 ：7481张训练图片与点云数据 + 7518张测试图片与点云数据

tracking分任务下有三个数据集：

Object Tracking Evaluation (2D bounding-boxes) ：21个训练视频 + 29个测试视频
Multi-Object Tracking and Segmentation (MOTS) Evaluation ：21个训练视频 + 29个测试视频
Segmenting and Tracking Every Pixel (STEP) Evaluation ：21个训练视频 + 29个测试视频

KITTI各个子数据集都提供开发工具 development kit，使开发者能够同时使用激光雷达点云，gps数据，右边彩色摄像机数据以及灰度摄像机图像等多模态数据；

KITTI也提供了数据集格式转换工具，链接同数据集链接，可以将KITTI格式转换为Pascal VOC格式等。

KITTI-360

基本介绍

KITTI全新推出的自动驾驶数据集，包括在73.7公里的行驶距离内产生的32万张图像和10万个激光扫描文件。

传感器：

1个激光雷达：Velodyne HDL-64E
1个激光雷达：SICK LMS 200
1个 90° 透视立体相机(2个镜头)
2个 180° 鱼眼相机
1个 IMU/GPS系统

下载方式

官网链接：（需使用KITTI账号登录）

KITTI-360

数据集内容

数据集内容为：标定数据；2D数据(图片/分割标签)；3D数据(激光雷达数据/分割标签/bbox)

ApolloScape

基本介绍

百度公司提供的ApolloScape数据集，包括具有高分辨率图像和每像素标注的RGB视频，具有语义分割的测量级密集3D点，立体视频和全景图像。

完整的数据集为Scene Parsing，同时提供数据集子集：

3D Car Instance ，不同城市的街景视频5000+帧
Lane Segmentation ，具有高质量的像素级注释110,000+帧
Self Localization ，有更多的场景和100倍的大数据，包括在不同光照条件下(即早上、中午和晚上)录制的视频（大数据不包含点云）
Trajectory ，城市街道大规模轨迹数据集可用于规划、预测和模拟任务
3D Lidar Object Detection and Tracking ，大规模城市交通数据集，包括具有高质量注释的连续3D激光雷达点云，可以用于三维检测和跟踪任务
Stereo ，重遮挡的城市立体图像对大规模数据集
Inpainting ，由同步标记图像和激光雷达扫描点云组成的大规模数据集，可以用于修补和其他任务

采集所用的传感器：

RIEGL VMX-1HA双激光头移动测图系统：
2个VUX-1HA高精度激光雷达（比Velodyne产生点云更精确、更稠密）
1个VMX-CS6摄像头系统（含6个摄像头，其中两个前视摄像头精度为3384×2710）
1个IMU/GNSS系统

下载方式

官网有Sample Data，如需完整数据集需发邮件获取

Apollo Scape

数据集内容

以如下数据集子集为例：

3D Car Instance ：

camera：cam文件，相机内参；
car_models：pkl文件，参与采集的车辆模型，便于python使用；
car_poses：json文件，每一张图片对应的相机姿态(pose)，含多组car_id和pose；
images：jpg文件，相机图片；
split：txt文件，训练集与测试集的图片列表。

Lane Segmentation ：

数据集以道路为区分，第一层级为道路文件夹；
各道路文件夹下有ColorImage和Label文件夹；
ColorImage和Label文件夹下都有多个Record文件夹；
Record文件夹下分为两个摄像头（Camera 5 和 Camera 6）；
ColorImage的摄像头文件夹下为每一帧的图片，格式jpg；
Label的摄像头文件夹下为对应每一帧图片的像素级可视化标签，不同标签以不同颜色显示，格式png。

3D Lidar Object Detection and Tracking ：激光雷达数据集，每秒10帧拍摄，每秒2帧打标签，含53分钟的训练视频段和50分钟的测试视频段

激光雷达数据：PCD(Point Cloud Data)文件/bin文件；
标签数据：
- 每个文件为1分钟长度，2fps；
- 内容包含：frame_id, object_id, object_type, position_x, position_y, position_z, object_length, object_width, object_height, heading；
  - object_id仅用来进行追踪；
  - object_type：1 for small vehicles, 2 for big vehicles, 3 for pedestrian, 4 for motorcyclist and bicyclist, 5 for traffic cones and 6 for others
  - position为相对坐标系结果，单位为米；
  - heading为相对于object方向的转向弧度。
激光雷达姿态数据(lidar pose)

BDD-100k

基本介绍

官网：https://www.bdd100k.com

包含10万段高清视频，每个视频约40秒，720p，30fps。每个视频的第10秒对关键帧进行采样，得到10万张图片（图片尺寸：1280 * 720 ），并进行标注。注释图像来自纽约和旧金山地区。

针对不同子数据集，有不同的标签类别，详见 Label Format — BDD100K documentation ，比如目标识别的分类为：

1: pedestrian
2: rider
3: car
4: truck
5: bus
6: train
7: motorcycle
8: bicycle
9: traffic light
10: traffic sign

下载方式

在 Berkeley DeepDrive 注册后，进入download标签，同意License后可点击相应子集进行下载。

数据集内容

各子集的详细介绍见：Data Download — BDD100K documentation

Videos ：100K视频片段，30Hz，mov文件

Video Torrent ：100K视频的种子文件

Video Parts ：100K视频片段的分段打包，便于下载

Info ：GPS/IMU信息，分为train+val两个文件夹，json文件，每个文件内容包含：

rideID
accelerometer：x/y/z/timestamp
gyro：x/y/z/timestamp
timelapse
locations：timestamp/longitude/course/latitude/speed/accuracy
filename：对应的video文件名
startTime
endTime
id
gps：timestamp/altitude/longitude/vertical accuracy/horizontal accuracy/latitude/speed

100K Images ：100K图片，取自每个视频片段的第10秒，用于目标检测、可行驶区域、车道线

10K Images ：10K图片（非100K的子集但有显著重叠），jpg文件，用于语义分割、实例分割、全景分割

Labels （旧版，新版为Detection 2020 Labels）：两个json文件(train+val)，对应100K每张图片的weather/scene/timeofday/timestamp/labels信息，labels信息包含：

category
attributes
occluded
truncated
trafficLightColor：如果分类不是交通灯，则为none
manualShape
manualAttributes
box2d(x1y1x2y2)
label id

Drivable Area ：分3个文件夹(masks/colormaps/polygons)，分别为分割标签(png文件)/分割标签可视化形式(png文件)/json文件，json文件内容：

name：对应图片名
labels：标签
id
attributes
areaType：如direct/alternative
category
poly2d：vertices/types(L/C，数量对应vertices)/closed

Lane Marking ：分4个文件夹(masks/colormaps/polygons)，json文件内容：

name：对应图片名
labels
id
attributes：
laneDirection：如parallel
laneStyle：如solid/dashed
laneTypes：如road curb/single white
category
poly2d：vertices/types(L/C，数量对应vertices)/closed

Semantic Segmentation ：分4个文件夹(masks/colormaps/polygons/rles)，polygons的json文件内容：

name：对应图片名
timestamp
labels
id
category
poly2d：vertices/types(L/C，数量对应vertices)/closed

Instance Segmentation ：分4个文件夹(masks/colormaps/polygons/rles)，与Semantic Segmentation结构相同

Panoptic Segmentation ：分3个文件夹(masks/colormaps/polygons)，与Semantic Segmentation结构相同

MOT 2020 Images/MOT 2020 Labels ：bbox追踪，是100K视频的子集并降采样到5Hz，标签为json文件，以Scalabel Format形式存储

MOTS 2020 Images/MOTS 2020 Labels ：分割追踪，视频是MOT 2020 Images的子集

Detection 2020 Labels ：2020年重新发布的目标检测标签，两个json文件(train+val)，对应100K每张图片的weather/scene/timeofday/timestamp/labels信息，labels信息包含：

label id
attributes
occluded
truncated
trafficLightColor：如果分类不是交通灯，则为NA
category
box2d(x1y1x2y2)

Pose Estimation Labels ：姿态估计训练集，标签主要内容为：category/box2d(xyxy)/graph(各nodes：location/category/visibility/id)

Cityscapes

基本介绍

官网：Cityscapes Dataset – Semantic Understanding of Urban Street Scenes

专注于城市的街景主义理解，其本质是一个计算机视觉语义分割数据集。提供的下载数据集中测试集和验证集有标注，测试集提供原图，无标注，可以把结果上传到项目主页，然后验证你算法。

采集范围：50个城市、覆盖春/夏/秋、白天阶段、优良/中等的气候条件、手动选取的图像帧(动态目标多、场景多、背景多)

数据量：5000张细粒度标注图像、20000张粗粒度标注图像

语义分割以及车辆和行人的实例分割；

共计30个类别：

Cityscapes提供三个级别的识别效果评估：语义分割/实例分割/全景分割

下载方式

官网链接：（需用公司或学校邮箱注册）

数据集内容

数据包含：

连续的视频帧，1.8s，30帧，并对第20个图像进行标注
stereo views
GPS坐标
根据测距得到的车辆自运动数据
外部温度
行人的bbox（其他研究者补充）
雨、雾天气扩展（其他研究者补充）

数据集文件结构：

其中，gtFine为精细真值图像，leftImg8bit为左侧8位图像；

训练集/测试集下以城市名为文件夹

官方提供的辅助脚本：GitHub - mcordts/cityscapesScripts: README and scripts for the Cityscapes Dataset

nuScenes

基本介绍

官网：https://www.nuscenes.org/

由Motional（前身为nuTonomy）团队开发的用于自动驾驶的共有大型数据集。

数据集来源于波士顿和新加坡采集的1000个驾驶场景，每个场景选取了20秒长的视频，包括大约140万个图像、39万个激光雷达点云、140万个雷达扫描和4万个关键帧中的140万个对象边界框。

用于采集的车辆装备了1个旋转雷达（spinning LIDAR, Velodyne HDL32E），5个远程雷达传感器（long range RADAR sensor, Continental ARS 408-21），6个相机（camera, Basler acA1600-60gc），1套IMU&GPS系统（Advanced Navigation Spatial）。

下载方式

官网链接：（需注册）

https://www.nuscenes.org/nuscenes#download

数据集内容

数据集共1000个驾驶场景，700个作为训练集、150个作为验证集、150个作为测试集：

Full dataset (v1.0)：提供Keyframe、Lidar、Radar、Camera独立压缩包下载。解压后为以下文件夹：
- maps：地图数据，png文件
- samples：样本文件，结构与sweeps一致
- sweeps：传感器数据，含12个子文件夹
  - CAM_BACK/BACK_LEFT/BACK_RIGHT/FRONT/FRONT_LEFT/FRONT_RIGHT：jpg格式图片
  - LIDAR_TOP：bin格式数据
  - RADAR_BACK_LEFT/BACK_RIGHT/FRONT/FRONT_LEFT/FRONT_RIGHT：pcd格式数据
- v1.0：各json文件，关系及内容如图所示：

标签分为以下子集：（数据集的分割标签文件无法直接识别，需依赖官方提供的辅助脚本：https://github.com/nutonomy/nuscenes-devkit ）

nuScenes-panoptic：全景分割标签(npz文件)：结合激光雷达数据来创建全景标签，每个点有一个语义标签和一个实例id
nuScenes-lidarseg：激光雷达分割标签：对点云数据在32个语义标签下进行标注

此外还有两个扩展集：

CAN bus expansion：CAN总线数据，含：vehicle route, IMU, pose, steering angle feedback, battery, brakes, gear position, signals, wheel speeds, throttle, torque, solar sensors, odometry and more
Map expansion：地图数据，含11层语义信息(crosswalk, sidewalk, traffic lights, stop lines, lanes, etc.)

交通标志数据集

国外的交通标志数据集如比利时的KUL Belgium Traffic Sign Dataset、德国的German Traffic Sign(GTSDB)等，对于国内的道路交通环境不一定适用；

国内目前公开的交通标志数据集主要有两个：

CCTSDB, CSUST Chinese Traffic Sign Detection Benchmark：长沙理工大学制作的中国交通标志检测数据集
TT-100k, Tsinghua-Tencent 100k：由清华和腾讯联合制作的数据集

CCTSDB

基本介绍

CCTSDB数据集是由长沙理工大学综合交通运输大数据智能处理湖南省重点实验室张建明老师团队制作完成，标注了常见的指示标志、禁令标志及警告标志三大类交通标志，分为CCTSDB2017和CCTSDB2021。

CCTSDB2017数据集介绍见github：GitHub - csust7zhangjm/CCTSDB: CSUST Chinese Traffic Sign Detection Benchmark

CCTSDB2021数据集介绍见github：GitHub - csust7zhangjm/CCTSDB2021

下载方式

CCTSDB2017：

百度云链接：百度网盘请输入提取码提取码：rv4s

CCTSDB2021：

百度云链接：百度网盘请输入提取码提取码：nygx
Google Drive：https://drive.google.com/drive/folders/14Km2W-5hbixXDfz7WSqW_Rx7O5m8ZMFn?usp=sharing

数据集内容

CCTSDB2017包含图片15734张，交通标志近40000个，仅标注了指示标志、禁止标志、警告标志三类。

CCTSDB2021共17856张图片(16356张训练集、1500张测试集)，xml文件内为bbox数据(xyxy)。

Tsinghua-Tencent 100k

基本介绍

官网介绍：index

从10万张腾讯街景全景图中创建了一个大型交通标志基准，称之为清华-腾讯100K基准;

提供100,000个图像，包含30000个交通标志实例，涵盖了光照和天气条件的变化;

原始的街景全景图分辨率为8192x2048，再将全景图裁剪分为四份，最终数据集的尺寸为2048x2048;

每个交通标志都注释了类别标签、bbox、像素分割，如下所示：

下载方式

官网下载：

index

数据集内容

分为两个数据集：

Tsinghua-Tencent 100K Annotations 2016
Tsinghua-Tencent 100K Annotations 2021（类别更多）

数据集分以下文件夹/文件：

train：训练集图片，jpg文件
test：测试集图片，jpg文件
other：从训练集和测试集排除的图
masks：标准图，png文件
annotations.json文件：标签数据：
- path：图片路径
- objects：
  - category
  - bbox(xyxy)
  - ellipse_org[[x1,y1],[x2,y2],…]：椭圆的标注点
  - ellipse[[x_o,y_o],[r_l,r_s],angle]：根据椭圆标注点拟合的椭圆
  - polygon[[x1,y1],[x2,y2],…]：三角形的标注点

使用手册：Tsinghua-Tencent 100K Tutorial