本文记录了博主阅读论文《Matterport3D: Learning from RGB-D Data inIndoor Environments》的笔记。更新于2019.03.11。
Matterport3D: Learning from RGB-D Data inIndoor Environments
摘要
本文主要介绍了一个RGB-D数据库。与现有数据库不同的是,这个数据库包含了大量完整的室内场景(关于90个建筑级别场景的(building-scale scenes)的194400张RGB-D图像得来的10800张全景(panoramic)图片)。包含的标注有表面重建(surface reconstructions)、相机位姿(camera poses)和2D及3D的语义分割。
Matterport3D数据库
数据获取
数据库的获取过程用的是三脚架固定的3个彩色相机和3个深度相机,分别指向稍微仰视、平视和稍微俯视。对于每个全景,相机绕着重力方向旋转6个不同的角度,在每个角度停留并用彩色相机拍摄一张HDR照片;三个深度相机在设备旋转的同时连续获取深度数据,最终对应每个彩色图像都合成一张1280x1024的深度图像。每个全景的最终结果是18张RGB-D图片,中心基本与人类观察视角相同。
如上图所示,数据库中的每个环境拍摄点之间大约相距2.5m,覆盖整个可以行走的区域。数据库还获取了6 DoF相机位姿。
概括来说,数据库包括90个建筑的194400张RGB-D图片,10800个全景,和24727520个三角纹理(textured triangles)。论文[21]和[25]提供了textured mesh reconstructions。
语义标注
采集的是3D下实例级别的语义标注(instance-level semantic annotation)。共包括50811个目标的实例标注(object instance annotations),整合成40个目标类别(object category)并将其映射到WordNet同义词集合(synset)中。
数据集属性
RGB-D 全景(Panoramas)
完整的采样视点
固定的相机
每个表面多样的视点
整个建筑
人类生活区域
规模: 2056个房间(46561
m
2
\text{m}^2
m2)
补充(其他数据库)
- 《Joint 2D-3D-semantic data for indoor scene understanding》
- 《3D semantic parsing of large-scale indoor spaces》
- 《SUN3D: A database of big spaces reconstructed using SFM and object labels》