一、概述
NYU-Depth V2数据集由各种室内场景的视频序列组成,该数据集是使用Microsoft Kinect的RGB和深度相机采集的。 它具有以下特点:
- 1449张经过标注的RGB和深度图像
- 采集自3个城市的464个场景
- 407024张没有标注的图片
- 每个目标都有一个类别和一个标号(cup1、cup2、cup3等)
数据集包括以下几个部分:
- 标注数据:带有详细标注的视频数据子集。该数据经过了预处理,补全了缺失的深度标注。
- 原始数据:使用Kinect采集的原始RGB、Depth及加速度计数据。
- 工具箱:用于处理数据和标注的一些工具
二、标注数据集
![v2-026bcd27081aea514c2093871645a108_b.jpg](https://img-blog.csdnimg.cn/img_convert/e1595365d47a0f49dd617f0a3d39aa1a.png)
标注数据集是原始数据集中的子集。它由一对RGB图像和深度图像组成,每张图像都经过精细的标注。除了投射采集到的深度图,还包含了一组预处理的深度图,这些深度图采用Levin等人的着色方案补全了缺失的深度标注。与原始数据集不同,标注数据集的文件格式为Matlab.mat,具有以下参数:
![v2-05227db5fbb395676434163e5b88d69c_b.jpg](https://img-blog.csdnimg.cn/img_convert/8b2b72892afcdfb9effca8d3f747301f.png)
- accelData:Nx4的加速度计值矩阵,用来显示每一帧是何时采集的。矩阵的列为设备的滚动觉,偏航角,俯仰角和倾斜角。
- depths:绘制深度图的HxWxN矩阵,其中H和W分别是高度和宽度,N是图像序号。 深度元素的值以米为单位。
- images:HxWx3xN的RGB图像矩阵,其中H和W分别是高度和宽度,3为通道数,N是图像序号。
- instances:HxWxN的实例分割图像矩阵。 在工具箱中使用get_instance_masks.m可以恢复场景中每个对象实例的蒙版。
- labels:HxWxN的对象标注蒙版矩阵,其中H和W分别是高度和宽度,N是图像序号。 标注的范围是1~C,其中C是类别的总数。 如果像素的标签值为0,则该像素为“未标注”。
- names:Cx1数组,每种标签的名称。
- namesToIds:从英文标签名称到类别序号的映射(C个映射对)
- rawDepths:原始深度图的HxWxN矩阵,其中H和W分别是高度和宽度,N是图像序号。 在投影到RGB图像平面之后、补全丢失深度值之前,这些depth maps捕获深度图像。
- rawDepthFilenames:文件名的Nx1单元格数组(在Raw数据集中),用于标记的数据集中的每个深度图像。
- rawRgbFilenames:标签数据集中用于每个RGB图像的文件名(在Raw数据集中)的Nx1数组。
- scenes:拍摄每张图像的场景名称的Nx1数组。
- sceneTypes:拍摄每个图像的场景类型的Nx1数组。