概述
参考文章:Rethinking Training Strategy in Stereo Matching
主流双目公开数据集有:SceneFlow、KITTI、ETH3D、MB。
各个双目网络主流训练数据视差分布的直方图:
SceneFlow
合成数据。
有35454张训练数据,4370张测试数据。
影像大小为:540(H)*960(W)。
可以用于做消融实验,同时不用担心会过拟合。
预训练模型可以更好的泛化。
视差在0到256之间,99.9%在200以内。
KITTI 2012 & 2015
包含了一共394张训练数据,395张测试数据。
影像大小为376*1236。
只提供稀疏的视差图作为GT。
KITTI中的视差范围为0-230,但是99.9%的数据在128以内。
ETH3D 2017
室内与室外的灰度场景。
包含了27个训练数据,以及另外20个测试数据。
只提供稀疏的视差真值。
视差范围在0-62之间。
Middlebury 2014
室内数据。
15张训练图以及15张测试图。
MB 2014(半分辨率)的视差范围在0-330之间。97.6%的视差范围在200以内。
此外根据我们的实验结果有了以下的几个结论:
- 首先SceneFlow是一个非常大的数据,而mid brewery以及说kitty都是非常小的数据,这样也就意味着说我们的目标数据集会非常的容易受Singapore的影响。
- 其次对于目标数据集来说,KITTI有比较大的场景份额,占了90%,而etc3D还有MB的话,只分别占了3%和6%的份额,也就是说在这样的匹配中,场景是非常不平衡的。
- 考虑到数据样本是不平衡的,且数据集里面的影像有着不一样的分辨率,也就是说视差的分布有着巨大的差别。这也会进一步的影响网络的泛化能力。