Kitti数据集再识(官网阅读)

周陽讀書

已于 2024-05-13 09:06:31 修改

阅读量1.2k

点赞数 33

分类专栏： KITTI数据集研究文章标签：笔记

于 2024-05-10 23:23:16 首次发布

本文链接：https://blog.csdn.net/weixi234/article/details/138682250

版权

KITTI数据集研究专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了KITTI数据集，包括其传感器设置如激光雷达、相机等，以及不同传感器间的坐标转换。数据集涵盖了立体视觉、光流、视觉里程计等多个任务，并提供了详细的校准参数和评估基准。文章还探讨了从激光雷达到相机3D包围盒的转换过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KITTI数据集中真值与标定参数

0. 前言

为了再研KITTI数据集及方便下载文件，特地买了梯子，心疼人民币QWQ～555

1. KITTI-home

Welcome to the KITTI Vision Benchmark Suite!

我们利用我们的自动驾驶平台开发新颖的具有挑战性的真实世界计算机视觉基准。我们感兴趣的任务是：立体、光流、视觉里程计、3D目标检测和3D跟踪。为此，我们配备了一辆标准旅行车，配有两台高分辨率彩色和灰度摄像机。精确的地面实况由Velodyne激光扫描仪和全球定位系统提供。我们的数据集是通过在Karlsruhe卡尔斯鲁厄, 在农村地区和高速公路上。每张图片最多可以看到15辆汽车和30名行人。**除了以原始格式提供所有数据外，我们还为每个任务提取基准。（之前一直没明白原始数据与各任务数据间关系）**对于我们的每个基准，我们还提供了一个评估指标和这个评估网站。初步实验表明，在既定基准上排名靠前的方法，例如Middlebury米德尔伯里 . 当从实验室转移到现实世界时，表现低于平均水平。我们的目标是减少这种偏见，并通过向社区提供具有新困难的现实世界基准来补充现有基准。
在这里插入图片描述

2. KITTI-setup

Sensor Setup 传感器设置
本页提供了关于我们用来记录此数据集的记录平台和传感器设置的其他信息。我们的记录平台是大众帕萨特B6，它已被修改为踏板（加速和制动）和方向盘的执行器。数据记录使用配备RAID系统、运行UbuntuLinux和实时数据库的八核i7计算机。我们使用以下传感器：
1 Inertial Navigation System (GPS/IMU): OXTS RT 3003
1惯性导航系统（GPS/IMU）：OXTS RT 3003
1 Laserscanner: Velodyne HDL-64E
1激光扫描仪：Velodyne HDL-64E
2 Grayscale cameras, 1.4 Megapixels: Point Grey Flea 2 (FL2-14S3M-C)
2个灰度相机，1.4兆像素：点灰跳蚤2（FL2-14S3M-C）
2 Color cameras, 1.4 Megapixels: Point Grey Flea 2 (FL2-14S3C-C)
2个彩色相机，1.4兆像素：点灰跳蚤2（FL2-14S3C-C）
4 Varifocal lenses, 4-8 mm: Edmund Optics NT59-917
4个变焦镜头，4-8毫米：爱特蒙特光学NT59-917

激光扫描仪以每秒10帧的速度旋转，每个周期捕获大约100k个点。激光扫描仪的垂直解析度为64。摄像机与接地平面大致水平安装。摄像机图像使用libdc的格式7模式裁剪为1382 x 512像素的大小。经过校正，图像变得稍微小一点。摄像机由激光扫描仪以每秒10帧的速度触发（当面向前方时），快门时间动态调整（最大快门时间：2毫秒）。我们关于车辆的传感器设置如下图所示。请注意，校准文件和开发套件中提供了有关校准参数的更多信息（参见原始数据部分）。
在这里插入图片描述

3.KITTI-stereo

Stereo Evaluation

Stereo2012 这是我们最初的立体声评估，称为“KITTI立体声”或“KITTI立体声2012”，发表在我们准备好自动驾驶了吗？KITTI视觉基准套件（CVPR 2012）。
它由194个训练场景和195个静态环境测试场景组成，由立体摄像机拍摄。
Stereo2015 这是我们新的立体评估称为"KITTI立体声2015"，它来自于场景流数据集发表在自动驾驶汽车对象场景流（CVPR 2015）。
它由200个训练和200个测试场景组成，其中运动物体由立体相机捕获。

4.KITTI-flow

5. KITTI-sceneflow

6. KITTI-depth

7. KITTI-odometry

KITTI官网：Odometry / SLAM Evaluation 2012

视觉里程计/SLAM评估2012
程计基准由22个双目序列组成，以无损失png格式保存：我们提供11个带有地面实况轨迹的序列（00-10）用于训练，11个不带地面实况的序列（11-21）用于评估。对于该基准，您可以使用单目或立体视觉里程计、基于激光的SLAM或结合视觉和LIDAR信息的算法提供结果。我们施加的唯一限制是您的方法是全自动的（例如，不允许手动闭环标记），并且所有序列使用相同的参数集。开发套件提供有关数据格式的详细信息。

Download odometry data set (grayscale, 22 GB)
下载里程计数据集（灰度，22 GB）
Download odometry data set (color, 65 GB)
下载里程计数据集（彩色，65 GB）
Download odometry data set (velodyne laser data, 80 GB)
下载里程计数据集（velodyne激光数据，80 GB）
Download odometry data set (calibration files, 1 MB)
下载里程计数据集（校准文件，1 MB）
Download odometry ground truth poses (4 MB)
下载里程计地面实况（4 MB）
Download odometry development kit (1 MB)
下载里程计开发工具包（1 MB）
Lee Clement and his group (University of Toronto) have written some python tools for loading and parsing the KITTI raw and odometry datasets
Lee Clement和他的团队（多伦多大学）编写了一些用于加载和解析KITTI原始和里程计数据集的python工具

从所有测试序列中，我们的评估计算了所有可能的长度（100，…，800）米的子序列的平移和旋转误差。下面的评估表根据这些值的平均值对方法进行排名，其中误差以百分比（平移）和每米度数（旋转）来衡量。不同轨迹长度和行驶速度的更详细比较可以在下面的图表中找到。注意：03.10.2013我们将评估的序列长度从（5,10,50,100，…，400）更改为（100,200，…，800），因为GPS/OXTS地面实况误差对于非常小的子序列很大，因此评估结果存在偏差。现在下面的平均值考虑了更长的序列，并提供了更好的真实性能指示。请考虑在所有未来的提交中报告这些数字。在更改之前的最后一个排行榜可以在这里找到！

重要政策更新：随着越来越多的未发表作品和现有作品的重新实现被提交给KITTI，我们制定了一项新政策：从现在开始，只允许在会议或期刊中提交具有重大新颖性且导致同行评审论文的作品。不允许对现有算法或学生研究项目进行微小修改。此类工作必须在训练集的拆分上进行评估。为确保我们的政策被采用，新用户必须详细说明他们的状态，描述他们的工作并在注册时指定目标地点。此外，我们将定期删除所有6个月前但仍然匿名或没有与之关联的论文的条目。对于会议，6个月足以确定一篇论文是否已被接受并添加参考书目信息。对于更长的审查周期，您需要重新提交结果

Additional information used by the methods
方法使用的附加信息
Stereo: Method uses left and right (stereo) images
立体：方法使用左右（立体）图像
Laser Points: Method uses point clouds from Velodyne laser scanner
激光点：方法使用Velodyne激光扫描仪的点云
Loop Closure Detection: This method is a SLAM method that detects loop closures
环路闭合检测：此方法是检测环路闭合的SLAM方法
Additional training data: Use of additional data sources for training (see details)
附加训练数据：使用附加数据源进行训练（见详细信息）

8. KITTI-object

9. KITTI-tracking

10. KITTI-road

11. KITTI-semantics

12. KITTI-raw data

Raw Data 原始数据
此页面包含我们的原始数据记录，按类别排序（见上面的菜单）。到目前为止，我们只包含序列，我们要么有3D对象标签，要么出现在里程计基准训练集中。数据集包括以下信息，以10 Hz捕获和同步：

Raw (unsynced+unrectified) and processed (synced+rectified) grayscale stereo sequences (0.5 Megapixels, stored in png format)
原始（unsynced+unrectified）和处理（同步+校正）灰度双目序列（0.5兆像素，以png格式存储）
Raw (unsynced+unrectified) and processed (synced+rectified) color stereo sequences (0.5 Megapixels, stored in png format)
原始（unsynced+unrectified）和处理（同步+校正）彩色立体声序列（0.5兆像素，以png格式存储）
3D Velodyne point clouds (100k points per frame, stored as binary float matrix)
3D Velodyne点云（每帧100k点，存储为二进制浮点矩阵）
3D GPS/IMU data (location, speed, acceleration, meta information, stored as text file)
3D GPS/IMU数据（位置、速度、加速度、元信息，存储为文本文件）
Calibration (Camera, Camera-to-GPS/IMU, Camera-to-Velodyne, stored as text file)
校准（相机、相机到GPS/IMU、相机到Velodyne，存储为文本文件）
3D object tracklet labels (cars, trucks, trams, pedestrians, cyclists, stored as xml file)
3D对象tracklet标签（汽车、卡车、有轨电车、行人、骑自行车的人，存储为xml文件）

在这里，“unsynced+unrectified”是指图像失真且帧索引不对应的原始输入帧，而“同步+校正”是指图像已校正且未失真且数据帧号在所有传感器流中对应的处理数据。对于这两种设置，都提供了带有时间戳的文件。大多数人只需要文件的“同步+校正”版本。
有关传感器、数据格式和校准的更多详细信息，请参见：

Preprint of our IJRR data paper
预印我们的IJRR数据文件
Download the raw data development kit (1 MB)
下载原始数据开发工具包（1 MB）
Download the raw dataset download script (1 MB) (thanks to Omid Hosseini for sharing!)
下载原始数据集下载脚本（1 MB）（感谢OmidHosseini的分享！）
Download the velodyne calibration file (1 MB) (thanks to Sascha Wirges for sharing)
下载velodyne校准文件（1 MB）（感谢Sascha Wirges的分享）
Vipin Sharma has written a guide to better understand the KITTI sensor coordinate systems
Vipin Sharma撰写了指南，以更好地了解KITTI传感器坐标系（见第14点 KITTI Coordinate Transformations）
Mark Muth has written a QT-based visualizer for point cloud and tracklet sequences.
Mark Muth编写了一个基于QT的可视化工具，用于点云和轨迹序列。
Yani Ioannou (University of Toronto) has put together some tools for working with KITTI raw data using the PCL
Yani Ioannou（多伦多大学）已经将一些工具用于使用PCL
Christian Herdtweck (MPI Tuebingen) has written a python parser for reading the object label XML files
Christian Herdtweck（MPI Tuebingen）编写了一个python解析器，用于读取对象标签XML文件
Lee Clement and his group (University of Toronto) have written some python tools for loading and parsing the KITTI raw and odometry datasets
Lee Clement和他的团队（多伦多大学）编写了一些用于加载和解析KITTI原始和里程计数据集的python工具
Tomáš Krejčí created a simple tool for conversion of raw kitti datasets to ROS bag files: kitti2bag
TomášKrejčí创建了一个简单的工具，用于将原始kitti数据集转换为ROS包文件：kitti2bag
Helen Oleynikova create several tools for working with the KITTI raw dataset using ROS: kitti_to_rosbag
Helen Oleynikova创建了几个使用ROS处理KITTI原始数据集的工具：kitti_to_rosbag
Mennatullah Siam has created the KITTI MoSeg dataset with ground truth annotations for moving object detection.
Mennatullah Siam创建了带有地面实况注释的KITTI MoSeg数据集，用于移动目标检测。
Hazem Rashed extended KittiMoSeg dataset 10 times providing ground truth annotations for moving objects detection. The dataset consists of 12919 images and is available on the project’s website.
哈齐姆·拉希德将KittiMoSeg数据集扩展了10倍，为运动物体检测提供地面实况注释。该数据集由12919张图像组成，可在该项目的网站上查阅。
Jack Borer has written a motion compensation library for the Lidar scans in the KITTI dataset.
Jack Borer为KITTI数据集中的激光雷达扫描编写了一个运动补偿库。

Note: We were not able to annotate all sequences and only provide those tracklet annotations that passed the 3rd human validation stage, ie, those that are of very high quality. For sequences for which tracklets are available, you will find the link [tracklets] in the download category.
注意：我们无法注释所有序列，只能提供那些通过第三个人类验证阶段的tracklet注释，即那些质量非常高的。对于tracklet可用的序列，您将在下载类别中找到链接[tracklet]。

13. KITTI-submit results

14. KITTI Coordinate Transformations

KITTI坐标变换——关于如何在KITTI的不同传感器坐标系之间导航的指南

14.1 KITTI数据集概述

在进行多传感器项目时，根据所使用的传感器，会出现各种坐标框架。在KITTI数据集的情况下，有3个传感器（相机、激光雷达和GPS/IMU）。下图描述了KITTI数据集的传感器设置。
在这里插入图片描述

有三个不同的传感器，因此在使用KITTI数据集时涉及3个不同的坐标框架。

14.2 KITTI GT注释详情

14.3 坐标转换细节

KITTI数据集为所有4个摄像机提供摄像机-图像投影矩阵，校正摄像机之间平面对齐的校正矩阵和不同传感器之间刚体变换的变换矩阵。下图显示了处理激光雷达数据时涉及的不同投影。
在这里插入图片描述
Velodyne LiDAR坐标中的3D点x被投影到第i个相机图像中的点y，如下所示：
y = P(i) @ R(0) @ Tvelo_cam @ x
y=P（i）@R（0）@Tvelo_cam@x

下面将介绍3D边界框从一个坐标系到另一个坐标系的各种转换以及所涉及的步骤。

14.4 相机-LiDAR 3D包围盒变换

以下步骤描述了首先使用偏航角在相机坐标系中旋转盒子然后投影到LiDAR坐标系的方法。
3D包围盒角坐标计算（相机坐标框）
在这里插入图片描述
x轴->右（长度），y轴->底部（高度），z轴->向前（宽度）
3B相机坐标系中的bb角坐标，坐标系位于盒子的底部中心。
rotation_y角协调的3D BB角旋转（相机坐标系）
形心坐标方框平移（相机坐标框）
从相机坐标到LiDAR坐标框的3D BB角坐标投影