以(RGB图像、深度图)对的形式进行的完全一般训练数据很难收集。像Kinect这样的商用RGB-D传感器已经被广泛用于这种目的,但仅限于室内使用。激光扫描仪已经启用了一些重要的数据集,如Make3D[29]和KITTI[25],但是这些设备操作起来很麻烦(在工业扫描仪的情况下),或者制作稀疏深度地图(在激光雷达的情况下)。
我们首先从Flickr下载网络照片,从Landmarks10K数据集[21]中获取一组拍摄良好的地标。然后我们用最先进的SfM和MVS方法在3D中重建每个地标。这就产生了一个SfM模型以及每个重建图像的稠密深度图。然而,这些深度图有明显的噪声和异常值,在这些原始深度数据上训练一个深度网络不会产生有用的预测。因此,我们提出了一系列的处理步骤,准备这些深度映射用于学习,并另外使用语义分割来自动生成序数深度数据。
我们使用COLMAP,一个最先进的SfM系统30和MVS系统32,从每个照片集合中构建一个3D模型。
提出了两种新的深度细化方法来生成高质量的训练数据:
应用中值滤波器来移除不稳定的深度值。
利用语义分割来增强和过滤深度地图 (怎么过滤?)
130K的有效图像。在这130K的照片中,欧几里德深度数据使用了大约100K的图像,剩下的30K图像用于派生序数深度数据。我们还将来自[18]的图像包含在我们的训练集中。这些数据一起组成了MegaDepth (MD)数据集,地址:http