- SceneFlow:一个包含 35454 个训练图像和 4370 个测试图像的大型合成数据集,H = 540 和 W = 960。该数据集提供密集而精细的真实视差图。一些像素有很大的视差。一般在我们的实验中将大视差排除在损失计算之外。终点误差 (
EPE
) 是主要的评估指标。 - KITTI 2015:真实世界数据集,包含来自驾驶汽车的街景。它包含 200 个使用 LiDAR 获得的具有稀疏真实视差图的训练立体图像对和另外 200 个没有真实视差图的测试图像对。图像大小为 H = 376 和 W = 1240。我们一般将整个训练数据分为训练集(80%)和验证集(20%)。
D1_all
是主要的评估指标。 - KITTI 2012:真实世界数据集,包含来自驾驶汽车的街景。它包含 194 个使用 LiDAR 获得的具有稀疏真实视差图的训练立体图像对和 另外195 个没有真实视差图的测试图像对。图像大小为 H = 376 和 W = 1240。我们一般将整个训练数据分为训练集(160 个图像对)和验证集(34 个图像对)。
Out_Noc
是主要的评估指标。
KITTI 2012和KITTI 2015 的
区别
:KITTI 2015中具有挑战性的区域(例如汽车挡风玻璃)的真实视差更准确,因为它使用 CAD 模型来生成用于评估的视差值。此外,只有 KITTI 2015 包含语义分割的真实分割左图。
评估标准
:NOC和ALL两种重叠区域, 预 测 视 差 − 真 实 视 差 < 3 p i x e l 预测视差 - 真实视差<3 pixel 预测视差−真实视差<3pixel 或者 预 测 视 差 − 真 实 视 差 < 真 实 视 差 ∗ 5 % 预测视差 - 真实视差< 真实视差 * 5\% 预测视差−真实视差<真实视差∗5%就被认为是正确的预测。
- Cityscapes:是一个用于语义城市场景理解的数据集。它包含从 50 个城市收集的 5000 张立体彩色图像,每对左视图都有高质量的像素级真实语义标签。这些图像被分成若干组,其中 2975 张用于训练,500 张用于验证,1525 张用于测试。Cityscapes 在额外的训练集中提供了 19997 个立体图像及其 SGM 视差图。
- Middlebury 2014:由一个训练集和一个测试集组成,每个集都有 15 个图像对,分别具有三种分辨率,全 (F)、半 (H) 和四分之一 (Q)。训练集提供了真实视差图。评估指标有10个,例如 99% 的像素误差分位数 (
A99
) 和像素均方根视差误差 (RMS
)。 - ETH3D:具有室内和室外场景的灰度图像数据集。它包含 27 个训练和 20 个测试图像对,带有稀疏标记的真实视差。