AutoMine：自动驾驶矿山场景数据集

Fate_serendipity

已于 2024-05-01 17:01:29 修改

阅读量677

点赞数 25

文章标签：自动驾驶人工智能机器学习计算机视觉

于 2024-04-25 19:45:20 首次发布

本文链接：https://blog.csdn.net/Fate_serendipity/article/details/138193362

版权

前言

目前实现无人驾驶主要是依靠于城市道路尤其是结构化道路数据集的支持，而针对非结构化道路的数据集很少，面向矿山场景的公开数据集更是少之又少，经过查阅发现了一个宝藏数据集——AutoMine，这是首个用于自动驾驶的露天矿数据集，以下是对它的梳理介绍，仅为学习记录，供参考，若对这方面感兴趣，请自行去官网申请下载。

基本介绍

AutoMine是第一个用于在非结构化特殊场景的矿山场景中感知和本地化的自动驾驶数据集。AutoMine可以为自动驾驶，计算机视觉，深度学习等方面的研究提供数据帮助。它对非商业用途自由开放。

数据集包括 18 个多小时的驾驶时间、18K 个注释激光雷达和成像三维感知的图像帧。

AutoMine 支持两个主要的自动驾驶任务：定位和感知。

AutoMine以9个自由度标注3D对象，如图1所示。（图自论文）

图1. 以9个自由度标注3D对象

为了增强模型的实用性能，采用了多种平台来采集挖掘数据，包括SUV、宽体卡车和矿用卡车，如图2所示。（图自论文）

三个收集平台从左到右分别是大众途锐SUV、Tonly TLD65矿用宽体运输卡车和小松930-4E矿用卡车

图2. 三个收集平台从左到右分别是大众途锐SUV、Tonly TLD65矿用宽体运输卡车和小松930-4E矿用卡车

与其他公共自动驾驶数据集的比较，如下表所示。（其中，HW表示公路，Ur为城市）
在这里插入图片描述

论文地址：
https://openaccess.thecvf.com/content/CVPR2022/papers/Li_AutoMine_An_Unmanned_Mine_Dataset_CVPR_2022_paper.pdf

数据集下载途径：
进入https://automine.cc/申请，需要下载、填写申请表并发送到邮箱：auto_mine2022@outlook.com，仅可用作学术用途。有需要的请自行通过教育邮箱进行申请。
在这里插入图片描述

数据集下载实例

AutoMine Dataset提供了很多数据，我下载了其中的detection_v2.0，其目录结构为：

.
└── detection
    ├── category.txt
    ├── dataformat.txt
    ├── files.txt
    ├── index.txt
    ├── split.txt
    ├── testing
    │   ├── label
    │   ├── left_cam
    │   ├── licam_calib
    │   ├── lidar
    │   ├── right_cam
    │   └── stereo_calib
    └── training
        ├── label
        ├── left_cam
        ├── licam_calib
        ├── lidar
        ├── right_cam
        └── stereo_calib

其中category.txt描述了该数据集的类别,，包括以下种类：

‘Civilian-Vehicles’ ：民用车辆
‘Mining-Truck’：矿用卡车
‘Track’：履带
‘Pushdozer’：推土车
‘Excavator/bottom’：挖掘机/底部
‘Excavator/top’：挖掘机/顶部
‘water_car’：水车
‘Pedestrian’：行人
‘Tractor’：拖拉机
‘Trailer’：拖车
‘bus’：公共汽车
‘Wide-Body-Truck’：宽体卡车

（论文中描述的为：分类包括卡车、拖拉机、拖车、宽体卡车、矿用卡车、挖掘机、推土机、民用车辆和行人）

dataformat.txt ：描述了每张图片的数据统一格式

category：类别
truncation：标注对象的截断情况（目标不一定完全呈现在图像中，部分在图像边界外）
occlusion：遮挡情况（复杂场景下被其他物体这当中）
x_min y_min x_max y_max：2D目标边界框左上角坐标（x_min,y_min）和右下角坐标(x_max,y_max)
length width height：3D物体的尺寸——长宽高
LiDAR坐标系：y(in LiDAR sys) z x
旋转角度： r_y r_z r_x

files.txt ：图片label的路径

子文件夹testing和training的目录结构一致，包含了：

├── label （数据标签）
├── left_cam （左侧相机采集图像数据）
├── licam_calib （lidar_camera_calib，激光雷达相机标定）
├── lidar （雷达数据）
├── right_cam （右侧相机采集图像数据，用于立体视觉）
└── stereo_calib （立体相机标定）

其中licam_calib中4x4的矩阵是将激光雷达数据转换到相机坐标系下的变换矩阵，使得激光雷达点云能够与相机图像上的特征进行匹配，从而实现空间信息的融合。该4x4矩阵包含如下信息：

旋转信息：左上角的3x3矩阵代表旋转矩阵R，用于描述两个坐标系之间的旋转角度。在LiDAR-camera标定中，这个旋转矩阵有助于将激光雷达检测到的3D点云按照相机的视角进行旋转，以便于将点云数据与相机图像正确对齐。旋转矩阵的性质是保持向量的长度和方向角度的连续性，且满足旋转矩阵的行列式为1，即旋转矩阵是正交矩阵，其转置等于其逆矩阵。

平移信息：矩阵的第4列（除了最后一行的1之外）代表平移向量（Translation Vector），表示了从一个坐标系原点到另一个坐标系原点的偏移量，分别表示沿着X轴、Y轴以及Z轴的偏移量。

齐次变换：矩阵的最后一行为[0, 0, 0,1]，这是齐次坐标系的一部分，用于确保3D空间中的点可以通过矩阵乘法方便地进行变换，同时也允许在同一个方程中同时表示旋转和平移。

关于stereo_calib的相关内容，可参考后续文章：
【3D目标检测】双目立体相机标定参数

题外：
若有对非结构化道路（特别是乡村道路）的研究感兴趣的同学，可以了解一下：
新疆北部乡村道路实例分割图像数据集：http://www.csdata.org/p/1028/