论文题目:DELTAS: Depth Estimation by Learning Triangulation And densification of Sparse points (ECCV2020)
数据集和预训练模型下载地址:在公众号「计算机视觉工坊」,后台回复「DELTAS」,即可直接下载。
一、摘要
多视图立体匹配(Multi-view Stereo)是一种主动式深度探测与单目深度估计实用化的权衡方法。基于代价体的方法利用3D卷积网络来提高MVS系统的精度。然而这种方法的计算开销很大,很难用于实际应用。与构建代价体的方法不同,本文提出一种高效的深度估计方法。具体地,首先进行特征点提取与描述子计算;然后进行特征点匹配与特征点的三角化;最后通过CNN来对稀疏深度图进行稠密化。上述三个步骤的操作通过一个端到端的网络框架实现,在网络模型训练中除了深度图的监督约束外,还加入了中间2D图像和3D几何的监督。实验结果证明:文章提出的方法在不同场景下能够以更低的计算开销来实现更精确的深度估计。
二、相关工作
2.1 特征点检测与描述
基于稀疏特征点的方法是SLAM或VIO技术的标准,因为他们速度快、精度高。“先检测再描述”是最常见的稀疏特征提取方法,具体地,首先检测特征点,然后对该特征点周围的块进行描述。描述子封装了更高级别的信息,这些信息被低级别的关键点所忽略。在深度学习之前,SIFT和ORB特征点被广泛用于低级别视觉任务的特征匹配描述子。而随着深度学习的出现,在很多的应用中取代了这些手工设计的特征。近年来,出现了SuperPoint、LIFT和GIFT等相关工作。
2.2 三角测量
三角测量是指,通过在两处观察同一点的夹角,确定该点的距离。三角测量最早由高斯提出并应用于测量学中,他在天文学、地理学测量中都有应用。在本文中,主要用三角化来估计像素点的距离。Samsung 人工智能研究院的研究员于2019年提出了用于多视图位姿估计的可学习的三角测量方法[4]。可学习的三角化模块可以集成到端到端学习的网络中。
2.3 Sparse-to-Dense Depth Estimation