双目网络公开数据集的特性

FLOWVERSE

已于 2022-03-29 23:41:25 修改

阅读量2.6k

点赞数 1

分类专栏： # 基于深度学习的立体匹配文章标签：计算机视觉深度学习人工智能

于 2022-03-29 21:24:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flow_specter/article/details/123748290

版权

基于深度学习的立体匹配专栏收录该内容

15 篇文章

订阅专栏

文章目录

概述
SceneFlow
KITTI 2012 & 2015
ETH3D 2017
Middlebury 2014

概述

参考文章：Rethinking Training Strategy in Stereo Matching

主流双目公开数据集有：SceneFlow、KITTI、ETH3D、MB。
各个双目网络主流训练数据视差分布的直方图：
在这里插入图片描述

SceneFlow

合成数据。
有35454张训练数据，4370张测试数据。
影像大小为：540（H）*960（W）。
可以用于做消融实验，同时不用担心会过拟合。
预训练模型可以更好的泛化。
视差在0到256之间，99.9%在200以内。

KITTI 2012 & 2015

包含了一共394张训练数据，395张测试数据。
影像大小为376*1236。
只提供稀疏的视差图作为GT。
KITTI中的视差范围为0-230，但是99.9%的数据在128以内。

ETH3D 2017

室内与室外的灰度场景。
包含了27个训练数据，以及另外20个测试数据。
只提供稀疏的视差真值。
视差范围在0-62之间。

Middlebury 2014

室内数据。
15张训练图以及15张测试图。
MB 2014（半分辨率）的视差范围在0-330之间。97.6%的视差范围在200以内。

此外根据我们的实验结果有了以下的几个结论：

首先SceneFlow是一个非常大的数据，而mid brewery以及说kitty都是非常小的数据，这样也就意味着说我们的目标数据集会非常的容易受Singapore的影响。
其次对于目标数据集来说，KITTI有比较大的场景份额，占了90%，而etc3D还有MB的话，只分别占了3%和6%的份额，也就是说在这样的匹配中，场景是非常不平衡的。
考虑到数据样本是不平衡的，且数据集里面的影像有着不一样的分辨率，也就是说视差的分布有着巨大的差别。这也会进一步的影响网络的泛化能力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

FLOWVERSE 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。