2018-CVPR-美国康乃尔大学-MegaDepth: Learning Single-View Depth Prediction from Internet Photos

本文链接：https://blog.csdn.net/kl1411/article/details/120263623

本文介绍了MegaDepth数据集的创建过程，该数据集通过从互联网照片中获取并重建地标，结合先进的SfM和MVS技术生成深度图。针对深度图中的噪声和异常值，提出深度细化方法，包括中值滤波和语义分割，以生成高质量的训练数据。研究还评估了不同网络结构，发现‘hourglass’网络在单目深度估计任务中表现最佳。

摘要由CSDN通过智能技术生成

以(RGB图像、深度图)对的形式进行的完全一般训练数据很难收集。像Kinect这样的商用RGB-D传感器已经被广泛用于这种目的，但仅限于室内使用。激光扫描仪已经启用了一些重要的数据集，如Make3D[29]和KITTI[25]，但是这些设备操作起来很麻烦(在工业扫描仪的情况下)，或者制作稀疏深度地图(在激光雷达的情况下)。

我们首先从Flickr下载网络照片，从Landmarks10K数据集[21]中获取一组拍摄良好的地标。然后我们用最先进的SfM和MVS方法在3D中重建每个地标。这就产生了一个SfM模型以及每个重建图像的稠密深度图。然而，这些深度图有明显的噪声和异常值，在这些原始深度数据上训练一个深度网络不会产生有用的预测。因此，我们提出了一系列的处理步骤，准备这些深度映射用于学习，并另外使用语义分割来自动生成序数深度数据。

我们使用COLMAP，一个最先进的SfM系统30和MVS系统32，从每个照片集合中构建一个3D模型。

提出了两种新的深度细化方法来生成高质量的训练数据：

应用中值滤波器来移除不稳定的深度值。

利用语义分割来增强和过滤深度地图（怎么过滤？）

130K的有效图像。在这130K的照片中，欧几里德深度数据使用了大约100K的图像，剩下的30K图像用于派生序数深度数据。我们还将来自[18]的图像包含在我们的训练集中。这些数据一起组成了MegaDepth (MD)数据集，地址：http