SUN RGB-D数据集是普灵斯顿大学的 Vision & Robotics Group 公开的一个有关场景理解的数据集。
官方介绍在此,其中有视频介绍。视频介绍已经很详细了,建议先看懂视频。
此博客仅仅列出个人认为的一些理解要点,如有错误,欢迎指正。
一、数据采集
通过四款3D摄像机采集图像和深度信息:
- Intel Realsence
- Asus Xtion
- Kinect v1
- Kinect v2
这四款相机均含有色彩传感器+红外发射器+红外接收器。其中色彩传感器获取RGB信息,红外发射器+红外接收器获取深度信息。
从数据上来看,RGB和深度信息是分开存放的。
如下图所示,左边是一副彩色图片,包含RGB信息,右边是一副灰度图片,其灰度值代表着深度信息:
一般而言,使用不同相机拍摄出来的彩色图片,差别不会太大。但由于硬件和算法上的差异,不同3D相机得出的深度估计差别较大,这是我们需要认识到的一个变量。
使用笔记本电脑+移动电源+相机的方式,方便在不同场景下做数据采集,见下图:
二、数据标注
每份数据标注了:
- scene category (场景种类)
- 2D segmentation (二维分割)
- 3D room layout (三维房间布局)
- 3D object box (三维物体边框)
- 3D object orientation (三维物体方向)
三、数据量级
SUN RGB-D 数据集包含10,335张不同场景的室内图片,146,617个2D多边形标注(应该指的是2D分割),和58,657个3D边框。
将SUN RGB-D的数据量级与PASCAL VOC2017的数据量级作对比:
图片个数 | 2D分割个数 | 2D 物体框个数 | 3D物体框个数 | |
SUN RGB-D | 10,335 | 146,617 | 58,657 | |
PASCAL VOC2017 | 11,530 | 6,929 | 27,450 |
就图片数量而言,SUN RGB-D与PASCAL VOC2017有着相同的量级,适合训练数据驱动模型,并适合作为一种评价基准。