Dispnet是2016在cvpr提出的一篇很经典的论文,在谷歌学术上的引用已经超过1000+ 改论文提出了三个很经典的合成数据集并提出了一个卷积网络实现了实时的深度估计
论文链接: link
一、主要贡献
三个渲染数据集。总计35000张
1.FlyingThings3D 主要包括在日常中常见的物体在空间中用随机的3D轨迹摆放。作者针对这样的环境生成了25000张立体匹配的数据集并包含了对应的标签
2.Monkaa 数据集的第二部分是由开源的动画短片蒙卡制作而来。作者从短片的一些场景中挑选了一些场景来制作数据集。
3.Driving
这个数据集是三个数据集中最像真实自然环境下采集的图像。整个数据的分布是动态并且是从行驶车的角度拍摄的。有些图片效果和KITTI2015的图片效果比较接近。
二、网络结构
总体上作者借鉴了FlowNet中的提取特征部分和膨胀特征部分。作者在研究中发现在上采样的操作之间加入卷积会提高最后的效果(在KITTI 2015数据集上下降了15%的EPE)
三、预测结果
作者先用FlyingThings3d的数据集训练了dispnet网络然后再用kitti的数据集对网络进行了finetune 在当时的KITTI2015排行榜上位列第二名和第一名的差距很轻微,并且速度接近是第一名的1000倍。
四、总结
Dispnet的提出大大的推进了双目立体匹配的相关研究,论文中提出的合成数据集也成为了后续算法评估性能指标的benchmark。