KITTI数据集（概念版）

花花少年

已于 2024-05-28 21:45:56 修改

阅读量5.4k

点赞数 1

分类专栏：深度学习文章标签： KITTI 数据集

于 2021-08-22 09:52:34 首次发布

原文链接：https://blog.csdn.net/xu19950525/article/details/108219593

版权

深度学习专栏收录该内容

135 篇文章

订阅专栏

KITTI数据集是自动驾驶领域的重要资源，由德国卡尔斯鲁厄理工学院和丰田美国技术研究院创建。它包含了丰富的图像、激光雷达数据，用于评测立体视觉、光流、视觉测距、3D物体检测和跟踪等技术。数据集涵盖市区、乡村和高速公路场景，提供多种传感器数据，如灰度和彩色相机、激光雷达、GPS/IMU等。此外，数据集支持多个基准任务，如立体匹配、光流估计、深度估计、视觉里程计、目标检测和追踪等，对自动驾驶算法的开发和评估至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、参考资料

KITTI 官网
 kitti数据集各个榜单介绍
 自动驾驶KITTI数据集详解
 KITTI数据集简介与使用
 kitti数据集各个榜单介绍
 KITTI数据集介绍
 KITTI数据集简介（一） — 激光雷达数据
 【KITTI】KITTI数据集简介（二） — 标注数据label_2
KITTI数据集简介（三） — 图像数据image
KITTI数据集简介（四） — 标定校准数据calib
数据集下载(kitti，coco)
kitti数据集label解析
 详解KITTI数据集

二、相关介绍

Vision meets robotics: The KITTI dataset

Vision meets Robotics: The KITTI Dataset

2. kitti数据集简介

kitti数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。kitti包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。

kitti数据集用于评测==立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection) 和 3D多目标跟踪(tracking)==等计算机视觉技术在车载环境下的性能。总体上看，原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。对于3D物体检测，label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。

3. KITTI数据集采集设备

在这里插入图片描述
传感器安装位置

在这里插入图片描述
传感器配置

传感器类型	详细信息
灰度相机	2台140万像素的PointGray Flea2灰度相机，FL2-14S3M-C
彩色相机	2台140万像素的PointGray Flea2彩色相机，FL2-14S3C-C
光学镜头	4个Edmund光学镜头，焦距4mm，90°水平孔径，35°垂直孔径角
激光雷达	1台Velodyne HDL-64E激光，扫描频率10Hz，64线，0.09°角度分辨率，2cm探测精度，每秒130万点数，探测距离120m
GPS/IMU惯导系统	1个OXTS TR3003惯导，6轴，采集频率100Hz，L1/L2信号波段，0.02m和0.1°的精度

激光雷达 Velodyne HDL-64E 配置

Velodyne HDL-64E rotating 3D laser scanner
- 10 Hz
- 64 beams
- 0.09 degree angular resolution
- 2 cm distanceaccuracy
- collecting∼1.3 million points/second
- field of view: 360°
- horizontal, 26.8°
- vertical, range: 120 m

三、Benchmark基准介绍

Our tasks of interest are: stereo, optical flow, visual odometry, 3D object detection and 3D tracking.

1. Stereo

Stereo Evaluation（立体评估）

基于图像的立体视觉和3维重建，从一个图像中恢复结构本质上是模糊的，一般是从不同角度的多张图片来恢复3维结构。

1.1 立体相机与深度相机

立体相机实际上是借助于深度信息，来还原物体的3D外观。

深度相机用来获取环境的深度(3D)信息，不仅仅是用来制作立体视图，还应用在深度检测，手势识别等。可以说深度相机比立体相机的用途更加广泛，是扩展了立体相机的应用范围之后的叫法

1.2 stereo与depth

stereo侧重于场景中的立体对象，而depth则侧重于场景中距离的远近。深度信息可能还需要依赖stereo信息，比如房子的立体效果，不然整个图像就只能得到平面的深度信息，而不是三维的深度信息

1.3 目前主流的测量深度的原理

双目视觉(Triangulation)
光飞行时间法(Time-of-flight)
结构光(structured light)

2. Flow

Optical Flow Evaluation （光流评估）

光流是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。应用领域包括：运动检测，对象分割，接触时间信息，扩展计算焦点，亮度，运动补偿编码和立体视差测量。

常用光流法

参考资料
little-rocket：Optical Flow介绍与代码实现
 光流Optical Flow介绍与OpenCV实现
 林天威：CVPR 2018论文笔记 - 光流与行为识别的结合研究

相位相关
基于块的方法
微分估计光流的方法
- Lucas–Kanade method
- Horn–Schunck method
- Buxton–Buxton method
- Black–Jepson method
- General variational methods
离散优化方法

3. Sceneflow

Scene Flow Evaluation（场景流评估）

场景流是场景的密集或半密集3D运动场，其相对于相机完全部分地移动。场景流的潜在应用很多。在机器人技术中，它可以用于需要预测周围物体运动的动态环境中的自主导航和/或操纵。此外，它可以补充和改进最先进的视觉测距和SLAM算法，这些算法通常假设在刚性或准刚性环境中工作。另一方面，它可以用于机器人或人机交互，以及虚拟和增强现实。

光流与场景流

光流是平面物体运动的二维信息，场景流则包括了空间中物体运动的三维信息。

4. Depth

Depth Evaluation（深度估计）

视觉深度在视觉SLAM和里程计方面应用广泛，深度信息的获取可以参考前面Stereo的方法。其中如果是基于视觉的odometry，那么就需要用到视觉depth evaluation技术。其中包括2项benchmark，深度补全和深度预测(The depth completion and depth prediction)。