基于双目深度估计的深度学习技术研究
英文标题: A Survey on Deep Learning Techniques for Stereo-based Depth Estimation
论文地址: https://arxiv.org/abs/2006.02535
0.摘要
从彩色图像中估计深度是一个长期存在的不适定问题(ill-posed problem),其已经在计算机视觉、图形学和机器学习领域中被研究了数十年。在现有技术中,由于与人类的双目系统有着紧密联系,立体匹配是应用最广泛的技术之一。在传统方法中,基于立体视觉的深度估计通过在多张图片上、匹配手工提取的特征来解决。尽管进行了广泛的研究,这些传统方法仍然受复杂纹理区域、较大的难以区别的区域以及遮挡的影响。由于在解决各种2D和3D视觉问题上获得的成功,使用深度学习解决基于立体视觉的深度估计问题的方法受到了广泛的关注,在2014年-2019年之间,该领域发表了150多篇论文。这种新的方法已经展示出了其在性能上的巨大飞跃,使自动驾驶、增强现实(AR)之类的应用成为可能。在本文中,我们提供了这一全新的并且不断发展的研究领域的全面调查,总结了最常用的流程(pipeline),并且讨论了它们的优点和局限性。在回顾了它们迄今为止已经取得的成就后,我们还推测了基于深度学习和立体视觉的深度估计研究在未来可能的前景。
1.介绍
从单张或者多张彩色图像中估计深度是一个长期存在的不适定问题,其在很多领域都有应用,比如机器人、自动驾驶、物体识别、场景理解、3D建模和动画、增强现实、工业控制以及医疗诊断。这个问题已经被广泛研究了数十年。在文献中提到的所有方法里面,立体匹配是传统上研究最多的一种,因为它与人类的双目有着紧密联系。
第一代基于立体视觉的深度估计方法通常在精准校准过的相机拍摄的多张图片上,依赖像素匹配。尽管这些方法可以取得不错的效果,但是它们在很多方面都会受到限制。比如,它们不能处理遮挡、特征缺少、或者具有重复图案的复杂纹理区域。有趣的是,作为人类,我们很善于利用先验知识解决此类不适定的逆问题(inverse problem)。比如,我们可以轻松推断物体的大概尺寸、它们的相对位置、甚至它们到我们眼睛的相对距离。我们之所以可以做到这些,是因为所有以前见过的物体和场景让我们能够获得先验知识,并且建立关于三维世界长啥样的思维模型。第二代方法试图将问题转化为学习任务来利用这些先验知识。随着计算机视觉中深度学习技术[1]的出现以及大型数据集的日益普及,已经带来了能够恢复丢失维度(即深度维度)的第三代方法。尽管这些方法最近才出现,但是它们已经在与计算机视觉和图形学相关的各种任务上,展示出了令人兴奋和鼓舞的结果。
在本文中,我们提供了最近使用深度学习并基于立体视觉的深度估计方法的全面、结构化综述。这些方法使用由分布在不同空间