Aggregation of Rich Depth-Aware Features in a Modified Stacked Generalization Model for Single Image Depth Estimation
摘要
从单目图像中估计景深是计算机视觉任务中的一个重要组成部分,它可以进一步应用于机器人视觉、三维建模,尤其是从二维到三维的图像/视频转换。由于有无限多的可能的世界场景,可以产生一个独特的图像,单图像深度估计是一个极具挑战性的任务。本文利用场景的全局和局部信息(结构)的优点来解决这类模糊问题。为此,我们通过描述有效单眼线索的丰富深度相关特征,将单目图像深度估计作为一个回归问题。在改进的叠层泛化方法的启发下,通过一个学习模型,利用这些图像特征与深度值之间的关系。实验结果表明,与现有的数据驱动方法相比,该方法在定量和定性分析方面都具有很强的竞争力,而且比以往的研究方法简单得多。
方法
与基于学习的深度估计方法不同,更多的传统技术(非数据驱动)是基于图像内容开发的。它们直接利用大气效应、焦点/散焦、遮挡、阴影等单眼线索,从一张图像中提取深度信息[14]。由于这些方法通常倾向于对场景环境施加一些严格的假设,所以它们的应用通常仅限于一些受限制的场景,比如包含雾霾的图像[15],由于景深(DOF)等的限制而引起的焦散[16]、[17]。但实际上,大多数时候,真实的图像并没有提供这样的条件。因此,为了解决这个限制,数据驱动方法通常是最受欢迎的方法。在数据驱动的方法中,一些方法只对局部或全局进行推理,导致深度图不准确且平滑。相比之下,我们提出的方法试图超越纯粹的全局或局部深度估计。为此,我们的模型针对全局类似于查询图像的图像进行训练(?)。另一方面,为了获取局部信息,我们设计了一个叠加框架来学习从图像块到深度值的映射。采用边缘感知平滑滤波器进一步细化初始估计深度图。我们的实验证明了在一个场景中混合全局和局部信息的好处,并应用了多级学习模型,该模型可以在三个公开数据集上都取得了state of the art的效果
我们提出了两种模型训练策略:第一种策略的输出是一个我们称之为最近邻训练(trnn)的模型,第二种策略的结果是一个我们称之为聚类数据集预训练(ptcd)的模型。
图2详细描述了第一种提出的模型训练方法,图6在提出的方法部分的末尾说明了第二种方法。从图中可以看出,我们的系统在相似图像检索阶段,试图通过一种非参数化的方法(如k近邻搜索)从3d存储库中检索一组与查询图像相似的图像。结果,我们建立了一个由k个语义相似的候选图像及其相关深度图组成的有限三维数据集作为新的三维训练集。接下来,我们不再从这些候选深度中全局推断整个深度图[11],[12],而是利用基于补丁的框架来捕获图像的局部信息。为此,我们从彩色图像和相应的深度图中收集大小为16×16的非重叠块。在图像块特征提取阶段,从图像块中提取一组能够捕捉到显著的单眼深度信息的特征。
在深度片平均计算阶段,深度片的平均值也作为每个深度片的代表深度进行计算。然后在多级学习模型阶段,通过多级回归器学习图像特征与相应深度值之间的关系,并为该查询图像建立训练模型。
构建网络结构
实验
**