Aggregation of Rich Depth-Aware Features in a Modified Stacked Generalization Model for Single Image

最新推荐文章于 2022-11-03 15:05:01 发布

楠仔码头

最新推荐文章于 2022-11-03 15:05:01 发布

阅读量328

点赞数

分类专栏：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_36558054/article/details/90214819

版权

深度学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

计算机视觉

5 篇文章 0 订阅

订阅专栏

1.引言

与传统的2D电视相比，3d电视丰富了用户的观看体验，在广播领域越来越受欢迎。近年来，为了弥补3D显示与3D内容供应不足之间的差距，许多2D到3D的图像/视频转换技术得到了发展。场景深度估计是基于深度图像的绘制(DIBR)是这些算法的基础。

目前已有许多基于立体图像或运动的深度估计算法，但单一图像的深度估计还没有立体图像的深度估计算法能够很好地解决这一问题。在立体情况下，深度可以通过寻找图像点的对应关系来恢复。因此，立体深度估计可以简单地认为是一个匹配问题，通常采用局部外观特征[3](密集两帧立体匹配算法已在[4]中进行了深入的研究)。相比之下，从单眼二维图像推断场景深度是一个高度模糊的问题，因为多个可能的世界场景可以生成一个单一的图像[1]。一般文献中对于单幅图像的深度估计有两种基本方法:一种需要熟练操作人员的干预，另一种不需要这些帮助[5]。在前一种称为半自动方法的情况下，一组用户定义的笔画(涂鸦)对应于对深度值的粗略估计，这些笔画被手动分配给图像。然后，深度图估计变成了一个多标签分割问题，其中每个类都是一个深度。图割、随机游走[6]、分水岭或它们的组合[7]、[8]是常用的深度标注算法，用于在图像之间(跨)传播这些标签。虽然这导致非常令人信服和准确的结果，但它是费时和昂贵的。因此，不需要操作员干预的完全自动化方法通常是可取的。但是，在没有任何先验信息的情况下，单幅图像自动预测场景深度具有很大的不确定性。然而，由于多年来获得的知识和数据，人类能够毫不费力地从一张图像中推断出场景的基本3D结构。这说明在模拟人眼视觉系统(HVS)进行深度感知时，利用单目深度线索进行单图像深度估计是可以实现的目标[9]。这种考虑一直是最近各种称为数据驱动方法的技术的动机，这些技术通过学习大型RGB-D数据库[10]-[13]来利用深度和这些线索之间的关系。

与基于学习的深度估计方法不同，更多的传统技术(非数据驱动)是基于图像内容开发的。它们直接利用大气效应、焦点/散焦、遮挡、阴影等单眼线索，从一张图像中提取深度信息[14]。由于这些方法通常倾向于对场景环境施加一些严格的假设，所以它们的应用通常仅限于一些受限制的场景，比如包含雾霾的图像[15]，由于景深(DOF)等的限制而引起的焦散[16]、[17]。但实际上，大多数时候，真实的图像并没有提供这样的条件。因此，为了解决这个限制，数据驱动方法通常是最受欢迎的方法。在数据驱动的方法中，一些方法只对局部或全局进行推理，导致深度图不准确且平滑。相比之下，我们提出的方法试图超越纯粹的全局或局部深度估计。为此，我们的模型针对全局类似于查询图像的图像进行训练（？）。另一方面，为了获取局部信息，我们设计了一个叠加框架来学习从图像块到深度值的映射。采用边缘感知平滑滤波器进一步细化初始估计深度图。我们的实验证明了在一个场景中混合全局和局部信息的好处，并应用了多级学习模型，该模型可以在三个公开数据集上都取得了state of the art的效果（Make3D,NYUv2,KITTI).这项工作的初步版本已在[18]中报道。

2.相关工作

上一节提到的经典方法(非数据驱动)允许从单个图像估计深度，而不使用任何边信息，如RGB-D图像数据集[15]、[16]。相反，数据驱动方法通过利用大型RGB-D存储库(即图像-深度对)的强大功能而流行起来。Saxena等人[19]开创性地设计了Make3D算法，利用多尺度马尔可夫随机场(MRF)对单目深度线索以及输入图像各部分之间的关系建模，重建可信的深度图。在[20]中，通过监督学习训练的MRF模型用于为图像的超像素点推断一组平面参数来创建三维模型。此外，在[21]中，他们通过在条件随机场(CRF)模型中提出 max-margin参数学习算法来改进他们的工作。

近年来，应用深度卷积网络在深度预测问题上取得了令人瞩目的效果。Eigen等人[1]作为该领域的先驱，通过训练一个大型的两级卷积神经网络(CNN)，显著优于前人的工作。由于需要非常大量的数据(即标记为颜色-深度图像对)，使得这种方法不适用，因为只有有限的训练集可用。相反，Li等人通过对预先训练好的CNN特征进行回归，减少了这种高计算负担。Mancini等人提出了一种基于真实图像和合成图像的深度神经网络方法来预测障碍物探测的深度[23].为了获得更好的性能，在编解码器结构中采用行彩色图像和光流作为网络输入。在[24]中，通过深度神经网络学习有序关系，深度值被估计为图像的中层视觉特性。Chen[25]等人将现有的RGB-D数据及其新的相对深度标注结合起来，用于训练CNN进行单幅图像深度预测。在Bansal[26]等人引入了一个用于表面法向预测的跳跃网络模型，并利用它和外观线索来检索三维模型和恢复二维图像中的精细对象细节.

图像区域的几何特征和语义特征之间存在很强的相关性，是近年来融合深度估计和语义分割的动力。在这方面，Cadena等人[27]最近提出利用相机和深度传感器提供的一组信息，即稀疏深度图、彩色图像和使用多模态叠加自动编码器的部分语义分割，重构密集深度图。Hoiem等人[28]提出通过将图像标记为几何类，恢复各种户外场景的粗糙表面布局。随后，Liu[29]等人在进行语义分割后，将预测的语义标签与单目深度特征相结合，对深度图进行估计。但是，连续执行这两项任务可能会导致语义标记错误传播到深度结果。针对这一不足，Ladicky等人[30]和[31]提出了一个统一的基于学习的框架来共同解决这两个问题。这种方法的主要缺点是需要额外的附加信息(即语义标签)。

近年来，基于图像视觉外观与深度值之间存在相关性的合理假设受到了人们的关注。受这一观察结果的启发，开发了几种数据驱动的方法。在这种方法中，从三维数据集中检索一组与输入图像相似的三维图像(图像+深度)。在实际应用中，通过所选择的深度图来预测整个输入图像的深度图。这些算法中的匹配过程通常基于从图像中提取的高层次特征。有向梯度直方图(HOG)[11]、局部二值模式(LBP)[12]、GIST[10]和[13]或它们的组合[32]都是突出特征的例子，一般在该框架中提取用于检索步骤。

Kconrad等人[11]通过在k个最近邻深度上应用中值算子来检索深度.尽管该方法实现简单快速(计算效率高)，但由于深度候选项的全局融合，它缺乏像素对齐(局部一致性)。深度候选[12]的加权组合和采用加权中值统计[13]是另外两种融合策略。深度转换算法[10]是深度组合方案全局形式的另一个例子，由karsch等人设计。它是一种优化框架，在该框架中，初始深度图通过SIFT流对检索到的深度进行warping，重构出初始深度图。在这种方法中使用这种计算开销较大的全局优化，会导致预测深度结果的过平滑。秦等人[33]没有transfer深度,而是尝试通过将参数集传输到输入图像来估计合理的深度图。在给定输入图像的情况下，通过应用CNN特性可以找到最相似的图像集。然后利用参数集对图像与相关深度图的相关性进行建模训练，对图像深度图进行估计。最近，[3]中提出的深度类比方法，不是直接从最近的邻居图像中选择深度值，而是将深度梯度作为重建线索。

我们提出的算法在精神上接近于[10]-[13]，因为我们还考虑了图像的全局视觉外观与其相关深度的关系，通过训练我们的模型对全局相似的图像进行查询图像。但是，我们引入了基于图像块的框架，允许我们捕获局部信息，而不是全局使用类似图像的深度映射来进行深度感知。在下一节中，我们将详细描述我们提出的方法。

3.方法

正如前面几节所指出的，在单一的图像深度估计中，仅依靠图像的全局信息和局部信息都不足以解决这样一个模糊的问题，可能会导致深度图的估计不正确。为此，我们的方法设计了一个考虑全局和局部深度相关信息优点的深度估计模型。（深度网络提取特征的时候难道不是全局和局部的都有么。。。）我们在图1中提出的单一图像深度估计方法，与其他datadriven方法类似，需要一个RGBD图像数据库，由多个彩色图像和地面真实距离地图组成。给出一个查询图像和一个数据库，我们的系统在模型训练阶段，试图提供一个精确的训练(或预训练)的深度估计模型。

我们提出了两种模式训练策略：第一个策略的输出是我们称之为“对检索到的最近邻进行训练”的模型，第二个策略的结果是我们称之为“对集群数据集进行预先训练”（ptcd）的模型。从图中可以看出，我们的系统在类似的图像检索阶段，试图通过非参数化方法（例如K最近邻搜索）从3D存储库中检索一组相似的图像。因此，我们创建了一个有限的三维数据集，该数据集由k个具有相似语义的候选图像及其相关深度图组成，作为我们新的三维训练集。接下来，我们不再从这些候选深度[11]、[12]全局推断整个深度图，而是利用一个基于图像块的框架来捕获图像的局部信息。为此，我们从彩色图像和相应的深度图中收集了尺寸为16×16的不重叠的图像块。在图像块特征提取阶段，从图像块中提取出一组捕捉到显著单眼深度线索的特征。在Depth Patch Average Calculation stage中，深度图像块的平均值作为每个图像块的代表深度计算。在Multi-level Learning Model stage中，图像特征与相应深度值之间的关系通过多级回归器学习，并为此查询图像创建一个经过训练的模型。

回到图1的总体框图，query image也分为不重叠的16×16块，在Image Patch Feature Extraction stage，从中提取相同的局部特征集。相应的深度图像块估计在Depth Estimation stage，使用在Model Training stage上训练得到的模型。在Stitching stage，所有估计的深度块被缝合在一起形成整个深度图。最后，在深度细化阶段，采用边缘感知中值滤波在Depth Refinement stage被提出。我们提出的框架的主要组成部分的细节将在下面的小节中讨论。

A.相似图像检索

在我们的框架中，核心思想是通过从图像块中提取的一组深度相关特征进行深度回归。然而，由于局部特征本身可能不足以从单个图像推断深度，因此也应考虑图像的全局上下文。如第2节所述，在光度外观方面类似的场景预计具有类似的3D结构。出于这种观察的动机，我们试图将原始训练集限制为仅包含与查询图像一致的视觉外观特征的图像。具体地说，通过使用gist特性[34]的最近邻候选搜索，k个相似的图像被检索并发送到算法的下一阶段。将Gq和Gi分别表示为查询图像和第i个训练图像的gist特征向量，其匹配得分计算如下：

SSD值越低，两个图像越相似。除了消除潜在的异常值以使它们不参与训练阶段之外，通过这种方式对训练集进行修剪，还可以帮助我们的学习模型快速收敛，从而为每个查询图像提供更高效的计算学习过程。在图3中，第一列描述了来自make3d数据集[35]的两个室外查询图像及其相关的深度图。接下来的五列显示了与通过比较GIST特征向量的SSD选择的查询图像最相似的五个图像。可以看出，检索到的图像集捕获了二维查询图像的整体底层结构；然而，它们中没有一个与查询图像在语义上完全一致，这就是为什么我们拒绝进行全局操作，如[11]和[12]。我们的方法是通过将候选图像分解成不重叠的斑块并从中提取空间域特征，考虑了图像的局部结构。

B.图像块特征提取

从二维图像中推断出的深度是通过许多单眼线索获得的，如纹理、散焦、颜色、薄雾等[19]。为了在单目深度知觉中模拟人的视觉系统行为，应在局部提取深度感知特征，并利用该特征对彩色图像及其相关深度图的关系进行建模。在本部分中，我们将讨论一组用于捕获四种单眼深度线索的强大图像特征：相对高度、纹理变化、颜色和亮度以及散焦。在我们的基于图像块的学习框架中，这些特性一次从修剪后的3D训练集的图像图像块中提取，一次从查询图像的图像块中提取。提取这些包含丰富统计和结构信息的特征，将对我们深度估计阶段的预测精度产生积极影响。下面我们将解释这些深度感知特性的详细信息：

1）相对高度：图像底部通常显示为地面，对应于相机附近的区域。因此，垂直位置可以被视为深度恢复的线索，它将由一个图像块中中心像素的标准化Y坐标来描述。我们利用make3d数据集的实验证明了相对高度在描述深度方面的有效性，如图4所示：当在任意空间位置的深度块之间计算RMSE时（图4（a））的均方根误差（rmse）柱状图与当在深度块之间计算RMSE时（图4（a））的均方根误差（rmse）柱状图进行比较。数据集图像中的相同空间位置（图4（b））。值得注意的是，在相同位置深度图像块之间计算的RMSE在零处具有较高的柱状图峰值。此外，为了捕捉RMSE直方图的统计特征，计算它们的峰度（在（2）中给出），其量化尾部权重和其峰度的量[36 ]。矢量x中元素的峰度定义为：

其中μ和σ分别是x的平均值和标准偏差。图4（a）和图4（b）的峰度分别为9.70和28.42。受这些观察的启发，具有相同垂直位置的斑块具有类似（相似）的深度值，捕捉物体在场景中出现的相对高度的特征将是深度的一个强有力的指示器。

2）纹理变化：对象通常在不同深度表现出不同的纹理行为，允许捕捉这些变化作为深度推断的代表线索[19]。例如，一个粗糙的草场，从远处看，往往会显得像一片碧绿的大海。在这里，我们试图通过使用一种称为局部二进制模式（lbp）的强大的纹理特征来描述这种识别性提示。 LBP是一种常用的纹理特征，在各种视觉应用中被广泛应用于局部纹理信息的编码。由于在LBP计算中，只考虑了像素差异的迹象，因此它显示出对对比度和照明变化的鲁棒性[37]。但是，它对小像素值波动很敏感。为了解决这个问题，我们将熵作为另一个描述符添加到LBP的柱状图中来描述图像块的纹理。

3）颜色和亮度：颜色可以为人类视觉系统提供丰富的深度感知线索来编码深度，特别是在户外场景中，颜色的存在范围有限，颜色代表不同的（有区别的）实体。例如，蓝色的颜色通常与天空联系在一起，距离最远。在自然图像中的每一种颜色都代表一种特定类型的纹理的意义上，颜色信息可以改善纹理特征，这一点也值得注意。与[28]相似，我们使用HSV颜色空间表示颜色，这允许评估感知颜色属性。具体来说，每个分量（H、S和V）的平均值以及色调和饱和度的5 bin和3 bin柱状图分别给出了给定图像块11维的颜色特征向量。

此外，根据波特兹和李[38]所指出的“越亮，越近”规则，物体发出的光线量与其与观察者之间的距离存在相关性。因此，为了捕捉与深度相关的特征，利用CIELAB颜色空间中每个贴片的平均亮度，比其他空间更好地量化感知亮度差异。

4）散焦：理想相机拍摄的照片应该有可以接受的锐利边界，以满足我们对景深（DOF）范围的要求。但是，由于图像中可能存在深度变化，因此仍然存在稍微模糊的像素。 Shi等人[39]将这种小的散焦模糊命名为“注意模糊”（JNB），它可以提供有关对象距离的信息提示，即使在没有窄景深的图像中也是如此。因此，对于给定的图像块，我们的表示包括JNB图像块的平均值，在该图像块上反映散焦特性。

最后，在特征提取阶段的最后一部分，为了定量地说明这些图像特征与深度的相关性，将它们连接起来，并分析这些特征向量与深度值之间的关系。为此，我们计算了从图像块（来自make3d数据集）中提取的特征向量之间的相关性。我们还计算了相关深度块的均方根误差。接下来，将相关间隔[0，1]划分为五个子间隔，长度相等0.2，对于每个子间隔，计算相应深度块的rmse等于零的概率。结果见表1。显然，深度值之间的相似性（根据RMSE）随着特征相关性的增加而逐渐增加。换言之，图像特征向量的相关性越高，零处的直方图峰值越高，这很好地证明了所使用的特征与深度值高度相关。

C.多尺度学习模型

在从图像块中提取上述特征后，我们必须利用图像与其对应的深度图之间的内在关系。特别是，我们试图通过回归模型学习从图像特征空间到深度值的映射。为此，我们提出了一个多尺度学习模型，并将深度编码作为一个回归问题。该模型受改进的叠加泛化方案[40]的启发，融合了多个不同网络的预测，以获得更高的泛化精度。如图5所示，一级（0级）的三个并行神经网络通过描述三种深度线索的特征进行反馈：纹理、散焦、颜色和亮度，使它们足够多样化。人工神经网络（ANN）是受生物神经系统启发而发展起来的一种重要的计算工具，在建模、模式识别等许多领域得到了广泛的应用。提高此类推广的预测精度仍然是一个活跃的领域搜索。实验表明，与传统的单级模型相比，多级学习方案显著提高了回归性能和预测精度[41]。

受这一观察结果的激励，0级生成器的输出是三个不同的预测深度，然后连接到1级生成器中。相对高度作为一个点的深度的一个强有力的线索，在0级和1级中被所有的生成器所共享（见图5）。该系统通过大量的训练数据（包括图像块的特征和深度块的平均值）进行训练，并在训练阶段获得将提取图像特征映射到深度值的经验。下一节将报告每个神经网络的配置。

D.深度估计

如前所述，给定一个查询图像，我们首先将其划分为大小为16×16的不重叠图像块。为了预测每个图像块对应的深度值，从中提取描述的特征集，并将每个特征集输入到0级的训练神经网络中。这些网络的输出（0级生成器输出）以及输入图像块的相对高度被用作更高级别网络的输入。第1层中的第四网络实际上细化了这三个网络的估计深度值，以提高泛化精度。在改进的叠加泛化方案中，每个神经网络都使用一个大规模的图像补丁特征和相应的深度值进行训练。第1层中的第四网络实际上细化了这三个网络的估计深度值，以提高泛化精度。在改进的叠加生成方案中，每个神经网络都使用一个大规模的图像块特征和相应的深度值进行训练。因此，我们期望它能预测出每一块查询图像的可靠深度值。我们将在第4节中提供各种比较和分析，以证明通过上述深度感知特性采用多级学习模型对深度回归任务至关重要。

E.深度优化

到目前为止，我们已经获得（预测）了一个初始深度图，由于我们的框架的基于图像块的性质，它遭受了阻塞。为每个图像块指定一个深度值（每个图像块中的像素被指定相同的深度），会导致区域边界与查询图像的区域边界不一致，并且在平滑深度出现的地方缺乏平滑度。在这一阶段，我们的目标是解决预测深度图的这一缺点，并将其从patch级别细化到像素级别。为此，我们采用了边缘感知中值滤波器，其中平滑是通过解决l1范数最小化问题来实现的。更具体地说，这里采用了[42]中提出的加权中值滤波器（WMF）。该WMF是一种边缘保持平滑滤波器，其中引导滤波器权重用作中值滤波器的权重。这些边缘感知权重能够将深度不连续性与输入颜色图像的深度不连续性对齐，并通过抑制具有不同颜色的像素的效果来减轻平滑区域中的假变化。检索-再训练设置包括一些重复的工作（例如，为每个查询训练一个模型），这可能会限制其实际使用。在这里，我们提出了另一种策略，我们称之为PTCD来解决这个问题。在我们提出的方法的第一阶段即模型训练中，我们可以用图6代替图2所示的模型训练，以更有效地生成训练模型，而不是根据查询图像选择性地对模型进行重新训练。

在聚类阶段，我们使用基于高级图像特征的K均值聚类方法将训练图像分类为K集（以获取场景的全局信息），并分别得到K三维图像集和一个中心的GIST特征。将图像块特征提取和深度块平均计算阶段应用于与以前完全相同的彩色图像和深度图像，并将它们的输出输入到多尺度学习模型阶段，得到每组对应的模型。在这里，这些K训练模型和中央的GIST特征建立我们的训练数据库。与原来的rgbd数据库相比，这个经过训练的数据库（网络）占用的空间要小得多。接下来在测试阶段，给出一个输入图像，通过提取其GIST特征，在最佳匹配模型查找块中找到最佳匹配的中心GIST特征，然后找到相应的预训练模型。现在，训练后的模型可以进入深度估计阶段。实验证明，我们的系统使用预先训练的集群数据集（PTCD）模型，可以产生计算效率高的系统，预测深度所需的时间和空间都很小。

5.实验结果

在本节中，我们使用以下三种流行的在线数据集评估我们的技术：

1)室外 Make3D图像数据集[35]由包含对象图像的各种室外图像和从不同角度的不同环境捕获的场景图像组成。make3d数据集由534个图像组成。我们将数据集分成400个训练图像和134个测试图像。每幅图像的分辨率为2272×1704，相应的深度图尺寸为55×305，由激光扫描仪生成。这个数据集中包含的各种环境，呈现了各种情况和结构，使得室外场景具有挑战性。所有图像的大小都调整为345×460像素，这与表2中报告的参考中所做的相同。

2)室内NYUV2 Kinect数据集[43]。我们将这个数据集分为795个训练图像和654个测试图像。Nyuv2数据集由Microsoft Kinect传感器采集，该传感器由27个不同室内场景类别的rgbd数据组成，这些场景共有464个不同的场景和40000多个分辨率为480×640像素的图像。

3)KITTI数据集[44]。Kitti数据集主要由安装在汽车上的固定传感器捕获的道路场景组成，这将此数据集记录的场景的多样性限制为类似道路的场景。Kitti数据集由多个室外场景组成。它有五大类：“城市”、“住宅”、“道路”、“校园”和“人”。深度由激光雷达传感器捕获。我们使用相同的测试集，即Eigen[1]提供的来自28个场景的697张图像，对于训练集，我们使用与Eigen等人相同的700对3D图像[1]用于训练Saxena等人的算法[20]。原来的RGB图像是1224×368，为了提高计算效率和公平比较，它们被缩小到256×78像素。该数据集的深度由最大范围约为80米的Velodyne激光雷达传感器在不规则间隔的点上采样。我们利用[43]提出的着色程序，从这一稀疏的ground truth中获得稠密得深度图。由于激光雷达无法捕捉图像上部的深度值，我们仅在图像空间的底部进行评估，类似于其他参考文献做的。

在我们的学习模型中，每个神经网络都有一个三层的前馈网络。对于每个网络，实验确定隐藏层中的神经元数量。对于我们学习模型的第一级网络，隐藏层中的神经元分别设置为（70,10）、（20,18）和（70,55），而对于第一级的精简网络，则设置为（40,10）。为我们的模型训练选择的候选图像数量根据经验设置为训练集大小的10%左右。为了找出这一点，我们分析了在不同数量的候选图像下，我们的方法的行为。例如，对于ptcd方法，我们评估了三个常见的误差度量：线性均方根、相对误差和log10误差。这些指标在Kitti数据集的整个测试集上针对不同数量的集群进行平均，n.评估结果如图7所示。如图7所示，将训练数据聚类（划分）为n=10个聚类，即使用训练集为我们的训练模式，可以提高量化效果。

A.量化结果

在这里，我们给出了估计深度与其相关的groundtruth真实度之间的相似性评分，以便在上述三个数据集上定量评估我们提出的算法，并将其与最先进的方法进行比较。此外，我们还分析了第3节中描述的每一组图像描述符的贡献以及应用不同模型训练技术的影响。对于定量评估，我们报告了先前工作中常用的几种措施：

在表2中，我们比较了系统模型训练阶段采用的几种基线方法。表2的最后两行报告了在检索到的最近邻（trnn）上使用训练模型和在集群数据集（ptcd）上使用预先训练模型的结果。

除了使用在集群数据集上预先培训的网络之外，另一种降低计算复杂性的解决方案是为每个输入模型进行微调。为此，我们在训练阶段对整个数据集上的网络进行训练，并在测试阶段使用已学习的模型权重，以加快收敛速度。从对我们的模型进行预先训练的完整数据集（我们称之为ftfd）的微调中获得的相应结果如表2所示。

在我们提出的方法中，我们提出了一个隐式假设，即在训练阶段，将我们的学习模型仅应用于相似的图像上，比整个数据集上的训练效果更好。在算法开始时，通过对原三维存储库进行裁剪、选择K类相似图像或在训练集上应用K类聚类对其进行编码。在这里，我们研究了这一假设的影响，旨在实现系统的准确性和效率之间的权衡。因此，使用400张训练图像对完整数据集（PTFD）使用预先训练模型的结果如表2所示。

通过比较表2的最后四行，可以得出以下几个结论：

1）很明显，通过检索候选对象（trnn方法）有选择地训练我们的模型可以产生更精确的深度图，但代价是增加了计算成本。每幅图像计算深度图大约需要50秒。另一方面，我们可以在系统的精度上做出妥协，通过使用PTCD将运行时间降低到0.9秒左右。请注意，所有实验都是使用matlab编程实现的，并且模拟是在一个带32 GB内存的Intel Core i7 4790K上运行的。

2）我们注意到，对于make3d数据集，在测试阶段，通过检索类似于查询图像（trnn）的k图像来获得最佳结果。ptcd不如trnn性能好，这是因为make3d数据集由不同角度的各种室外图像组成。有不相关的图像（离群值）不属于任何集群，但集群强制对其中一个集群中的每个输入图像进行分类。这种机制不能像最近邻检索那样提高性能。

3）ptfd的结果表明，修剪数据集并在选定的对上训练模型有助于捕获场景的全局信息。此选择大大减少了所有预定义的错误度量。请注意，在学习之前修剪数据集是非常有效的，尤其是在存在大量异常值的情况下，例如在make3d数据集的情况下。相反，如表5所示，在不太多样化的数据集（如Kitti）中，对完整数据集进行预培训将导致可接受的性能。

4）还观察到，由于在完整数据集上预先训练的网络不准确，因此无法对每个输入的ftfd模型进行微调，也无法执行trnn方法。

我们对Make3D数据集的结果与表2中的其他算法进行了比较。我们使用作者的源代码codes1得到了[10]和[13]的结果，而其他参考文献的结果直接取自他们的出版物。注意，正如在第2节中所解释的，这些算法使用不同的特性、不同的学习结构，甚至在某些情况下，为深度估计过程使用附加的附加信息。

如表2中的定量结果所示，我们的TRNN技术在四个指标中至少有三个指标优于这些方法。值得注意的是，许多深度估计算法使用复杂的图形模型[19]、[20]、[21]、耗时的全局优化[10]甚至附加的边信息，如语义标签[28]、[29]。然而，由于在改进的学习模型中有效地使用了丰富的去解冻特性，我们提出的方法仍然取得了较好的效果。

表2还分析了采用多层次学习模型与单层次学习模型相比的影响，通过比较我们的单层次学习方法和表2中的TRNN结果，说明采用两层学习模型的重要性。模型策略变得清晰。具体来说，多层次学习模型比简单的单一模型性能更好，在所有错误度量的平均值上减少了错误。

此外，为了分析每一组特征在我们学习阶段的贡献，我们做了三个不同的实验，一次删除一个网络。表3显示了make3d数据集上这些实验的结果。可以很容易地推断，每个网络的缺失将导致深度估计误差的增加，从而加强所有特征集的重要性（有效性）。结果也很好地证明了由颜色和亮度特性提供信息的第三网络是最具影响力的网络。

我们进一步对nyuv2数据集进行深度估计，类似于我们对make3d数据集所做的，在表4中报告应用不同模型培训的结果。与make3d相反，在该数据集中应用ptcd可以提高系统在所有误差和精度方面的性能。除了将深度预测所需的时间减少到一秒钟以下之外，还可以使用其他指标。这主要是因为数据集的性质，其中包含可以正确集群的统一场景。

我们还将我们的算法与使用nyuv2数据集发布的最新方法进行了比较。带星号引用的结果直接取自[25]。引用†符号的结果从[1]报告，并通过使用作者的源代码获得[13]的结果。

除了像[10]和[13]这样的经典方法，我们还提供了与Chen等人最先进的方法的比较[25]，Zoran等人[24]和Eigen等人[1]第一行（mean）报告通过简单估计任意查询图像的常量平均深度图（从训练集计算）获得的结果。如表4所示，Eigen等人[1]在这四个指标中的三个指标中获得了更好的数据集性能。然而，我们的方法实现了最佳尺度不变对数均方根误差度量，在不考虑绝对尺度缺陷的情况下，对相对尺度误差进行惩罚。

值得一提的是，这种比较并不完全公平，因为与我们在密集标记数据（标准列/测试拆分）上训练和测试模型的方法不同，Eigen等人[1]另外，使用包含220K以上稀疏标记深度图像的原始数据集，以获得更好的性能。在[24]Zoran等人已经为此数据集创建了一组顺序关系注释，即对于训练集中的每个图像，它们提取点和点对，并为每对设置基本真值标签。陈等人。[25]使用了与Zoran等人相同的设置。生成用于培训和评估的点对。该表还表明，在相同的训练数据[10]、[13]、[20]下，我们的方法（PTCD）根据所有指标实现了更高的精度。

请注意，由于室内场景的纹理通常比室外自然场景的纹理要少，因此我们在学习模型中使用感知驱动特征的算法并不优越，这是合理的。然而，从表4中的定量结果可以推断，我们基于简单学习的算法能够在这个数据集上很好地进行竞争，因为竞争模型在丰富的室内数据集上部署了大量的训练。

我们还评估了Kitti数据集上的系统，并将其测试集上的度量结果与表5中最先进的方法进行了比较。通过比较表的最后四行，我们使用ptcd的方法由于kitti数据集的统一特性，在所有度量方面都表现出最佳的性能。

第一行是只输出训练集的平均值，并使用平均值作为任何查询图像的估计值的结果，因为这是一个有趣的基线，揭示了Kitti数据集的困难性。对于带星号的参考结果，我们参考了[1]中提供的表格，参考结果[23]和[27]直接取自其表格。使用作者的源代码得到[10]和[13]的结果。

从表5可以很容易地推断，我们在集群数据集（ptcd）上使用预先训练的模型的系统在规模不变的对数均方根误差和均方根误差上大幅度优于所有先前的方法，并且在其他指标方面（特别是使用相同训练数据训练的方法）与其他方法（高度）具有竞争性[10]、[13]，〔20〕。

在表5中提到的方法中，方法[1]没有针对Kitti（700个图像对）的公共训练分割进行训练。他们实际上使用的训练设备比我们在这项工作中使用的要大150倍。此外，Cadena等人[27]使用二维激光测距仪添加部分观测深度数据作为额外输入，以提高其性能。因此，比较并不完全公平；然而，我们的目标是仅仅依靠很少的培训数据来衡量我们的绩效能有多接近。

而Eigen等人[1]通过利用大量的训练数据，在这个数据集上取得了更好的性能，定量结果表明，在适当的学习模型中使用丰富的深度感知功能，我们的方法可以实现更低的均方根值和比例不变的对数均方根值，并且在估计深度方面与最先进的系统相比，即使在无额外信息得情况下使用小150倍得training data。

B.量化结果

我们还定性地比较了我们方法对来自三个数据集的一些样本图像的输出与图8至图10中的最新技术。从图8中恢复的深度图的总体结构来看，图8提供了我们的系统与[10]和[20]的建议方法的比较。在make3d数据集中，我们发现我们提出的方法能够比对应的方法更好地恢复场景的详细结构。可以观察到[20]算法无法恢复复杂的结构，在某些情况下会导致局部不一致的估计。此外，[10]所估计的深度图存在过度平滑的问题。在深度插值过程中应用全局优化的问题。具体地说，该算法通过错误地将前景中的对象合并到背景中来平滑恢复的深度图。相比之下，我们的结果中的深度不连续性更好地与彩色图像中的深度不连续性对齐，显示了基于图像块的框架和边缘感知过滤的协同组合的优势。这导致视觉上令人愉快的估计和更尖锐的过渡场景，使它成为许多应用，如二维到三维图像转换所需要的。在图9中，从nyuv2数据集恢复的例子表明，我们的方法能够预测薄的和远的物体的详细深度图。虽然[1]的结果在数量上优越，但我们的系统能够捕捉图像的主要结构和深度不连续处的清晰边缘。

图10说明了与[1]和[10]方法相比，Kitti数据集的一些定性结果。请注意，我们的方法对物体（如汽车和建筑物）的预测更为清晰，即使图像的上部没有被地面真相覆盖。

在某些情况下，我们的系统错误地将单眼深度提示与深度值联系起来。这可能导致深度和三维估计不准确。在图11中，我们给出了我们的方法在从make3d和nyuv2数据集中恢复图像的场景结构时所做的失败案例的例子。由于我们的预测模型是在修剪数据集上训练的，在某些情况下（例如前两行中的图像），在场景透视或现有对象方面，查询图像与检索到的最近邻（或群集数据）之间存在相当大的差异，从而产生深度图的不准确推断。另一个失败的例子是在第三排，即使人类视觉系统使用双目提示，也很难正确地感知场景的深度。

6.结论

为了从单个图像中自动估计深度图，我们提出了一个框架，该框架既包含图像的全局内容，又包含图像patch的局部信息。为了在全局范围内考虑场景的空间结构，我们不使用整个训练集，而是在一组全局相似的图像上训练我们的模型，这些图像被检索（我们的第一个策略）或聚集（第二个策略）。然后在基于patch的框架中使用这些候选图像，从这个意义上说，一组健壮的深度感知特性是从本地提取的。运用多尺度学习模型，对图像特征与深度值的内在关系进行了建模，实验证明，与以往的研究相比，在定性和定量两方面都取得了很好的效果。

楠仔码头

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Aggregation of Rich Depth-Aware Features in a Modified Stacked Generalization Model for Single Image

1.引言与传统的2D电视相比，3d电视丰富了用户的观看体验，在广播领域越来越受欢迎。近年来，为了弥补3D显示与3D内容供应不足之间的差距，许多2D到3D的图像/视频转换技术得到了发展。场景深度估计是基于深度图像的绘制(DIBR)是这些算法的基础。目前已有许多基于立体图像或运动的深度估计算法，但单一图像的深度估计还没有立体图像的深度估计算法能够很好地解决这一问题。在立体情况下...
复制链接

扫一扫

专栏目录