双目数据集

最新推荐文章于 2023-08-25 10:54:02 发布

爱钻研的小铭

最新推荐文章于 2023-08-25 10:54:02 发布

阅读量3.5k

点赞数 1

分类专栏：基于深度学习的深度估计文章标签：深度估计数据集

本文链接：https://blog.csdn.net/qq_42676511/article/details/121980201

版权

基于深度学习的深度估计专栏收录该内容

35 篇文章

订阅专栏

SceneFlow：一个包含 35454 个训练图像和 4370 个测试图像的大型合成数据集，H = 540 和 W = 960。该数据集提供密集而精细的真实视差图。一些像素有很大的视差。一般在我们的实验中将大视差排除在损失计算之外。终点误差 (EPE) 是主要的评估指标。
KITTI 2015：真实世界数据集，包含来自驾驶汽车的街景。它包含 200 个使用 LiDAR 获得的具有稀疏真实视差图的训练立体图像对和另外 200 个没有真实视差图的测试图像对。图像大小为 H = 376 和 W = 1240。我们一般将整个训练数据分为训练集（80%）和验证集（20%）。D1_all是主要的评估指标。
KITTI 2012：真实世界数据集，包含来自驾驶汽车的街景。它包含 194 个使用 LiDAR 获得的具有稀疏真实视差图的训练立体图像对和另外195 个没有真实视差图的测试图像对。图像大小为 H = 376 和 W = 1240。我们一般将整个训练数据分为训练集（160 个图像对）和验证集（34 个图像对）。Out_Noc是主要的评估指标。

KITTI 2012和KITTI 2015 的区别：KITTI 2015中具有挑战性的区域（例如汽车挡风玻璃）的真实视差更准确，因为它使用 CAD 模型来生成用于评估的视差值。此外，只有 KITTI 2015 包含语义分割的真实分割左图。
评估标准：NOC和ALL两种重叠区域， $预测视差 - 真实视差 < 3 p i x e l$ 或者 $5\%$ 就被认为是正确的预测。

Cityscapes：是一个用于语义城市场景理解的数据集。它包含从 50 个城市收集的 5000 张立体彩色图像，每对左视图都有高质量的像素级真实语义标签。这些图像被分成若干组，其中 2975 张用于训练，500 张用于验证，1525 张用于测试。Cityscapes 在额外的训练集中提供了 19997 个立体图像及其 SGM 视差图。
Middlebury 2014：由一个训练集和一个测试集组成，每个集都有 15 个图像对，分别具有三种分辨率，全 (F)、半 (H) 和四分之一 (Q)。训练集提供了真实视差图。评估指标有10个，例如 99% 的像素误差分位数 (A99) 和像素均方根视差误差 (RMS)。
ETH3D：具有室内和室外场景的灰度图像数据集。它包含 27 个训练和 20 个测试图像对，带有稀疏标记的真实视差。