使用常见的多尺度卷积架构预测深度,曲面法线和语义标签(论文2015)

Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture

论文下载:https://arxiv.org/pdf/1411.4734.pdf

声明:学习过程

作者:David Eigen、 Rob Fergus

摘要:

在本文中,我们单一的多尺度卷积神经网络架构来处理三种不同的计算机视觉任务:深度估计、曲面法向量估计和语义标注。我们开发的网络只需稍微修改就可以自然的适应每个任务,从输入图像直接回归到输出图。我们的方法使用一系列尺度逐步细化预测,并且在没有任何的超像素和低层分割情况下捕捉许多的图像细节。我们在所有三项任务的基准上实现了最先进的性能。

一、介绍

场景理解是视觉中的一个核心问题,它有许多同的方面。这其中包括描述不同场景部分的标识的语义标签;描述物理几何体的曲面或深度估计;单个对象范围的实例标签;以及捕获人与环境之间可能的互动的启示。其中许多通过包含每个像素的值或标签像素图来表示,例如,包含在每个像素处可见的对象的语义标签或曲面法向线的矢量坐标的地图。

在这篇文章中,我们讨论了其中的三个任务,深度预测,曲面法向估计和语义分割——所有这些都使用一个单一的公共体系结构。我们的多尺度方法直接从输入图像生成像素地图,而不需要低层的超像素或轮廓,并且能够使用一系列应用于提高分辨率的卷积网络堆栈来对齐许多图像细节在测试时,所有三个输出都可以实时(30Hz)产生我们在调查的三项任务中都取得了最先进的结果,展示了我们的模型的多功能性。

开发像素地图回归的通用模型有几个优点首先,新任务的应用程序可能会很快开发出来,许多新工作都在于定义适当的训练集和损失函数;因此,我们的工作是朝着构建可用于许多应用程序的现成回归模型迈出的一步。此外,使用单一架构有助于简化需要多种模式(如机器人或增强现实)的系统的实现,进而有助于在这些领域取得研究进展最后,在深度和法线的情况下,许多计算可以在模式之间共享,使系统更有效。

二、相关工作

卷积网络在目标分类和检测中得到了成功的应用[19,12,30,32,34]。大多数这样的系统要么为整个输入窗口分类单个对象标签,要么为每个场景中的几个对象分类边界框。然而,ConvNets最近已经被应用于许多其他任务,包括姿势估计[36,27]、立体深度[38,25]和实例分割[14]这些系统大多使用ConvNets来查找局部特征,或者生成离散建议区域的描述符;相比之下,我们的网络使用局部和全局视图来预测各种输出类型此外,虽然这些方法中的每一个最多只能处理一个或两个任务,但我们能够将网络应用于三个不同的任务。
我们的方法建立在Eigen等人的方法的基础上。[8],将两个卷积网络分阶段应用于单图像深度图预测。我们开发了一个更通用的网络,它使用三个尺度的序列生成特征并将预测细化到更高的分辨率,我们将其应用于多个任务,包括曲面法线估计和逐像素语义标记。此外,我们还改进了深度预测的性能,说明了我们的增强是如何帮助改进所有任务的。

Fouhey等人已经解决了单图像曲面法向估计问题。[10,11],Ladicky等人[21],Barron和Malik[3,2],最近由Wang等人撰写。[37],后者与我们同时工作。Fouhey等人匹配具有歧视性的本地模板[10],然后对从消失点射线[11]中提取的网格进行全局优化。而Ladicky等人学习从过度分割区域到一组离散的法线和混合系数的回归barron和malik[3,2]使用一组手工制作的prior以及照明和反射从rgb-d输入推断法线。来自RGB输入,Wang等人[37]使用卷积网络结合来自局部和全局尺度的法线估计,同时也使用来自房间布局、边缘标签和消失点的提示。重要的是,我们可以使用更通用的多尺度体系结构来实现同样好的或更好的结果,这种体系结构可以自然地用于执行许多不同的任务。

先前的语义分割工作包括许多不同的方法,既使用RGB-only数据[35,4,9]也使用RGB-D[31,29,26,6,15,17,13]其中大多数使用局部特征对分割区域进行分类,然后使用全局一致性优化,如crf。相比之下,我们的方法采用了一种本质上相反的方法:我们首先进行一致的全局预测,然后进行迭代局部优化。这样,本地网络就可以知道自己在全局场景中的位置,并可以在精确的预测中使用这些信息。

Gupta等人[13,14]首先通过生成轮廓来创建语义分割,然后使用手工生成的特征和支持向量机[13]或用于对象检测的卷积网络对区域进行分类[14]。值得注意的是,[13]还执行amodal完成,它通过从深度比较平面在图像的不同区域之间传输标签。

与我们的语义分割方法最相关的是使用卷积网络的其他方法。Farabet等人[9]和Couprie等人[6]每一个都使用一个应用于多尺度的卷积网络并行生成特征,然后使用超级混合进行聚合预测我们的方法在几个重要方面不同。首先,我们的模型在最粗的尺度上有一个大的、完整的图像视野;正如我们所展示的,这一点非常重要,特别是对于深度和法线任务此外,我们不使用超像素或后处理平滑器代替,我们的网络本身产生相当平滑的输出,允许我们采取一个简单的像素最大值。

Pinheiro等人[28]使用递归卷积网络,在该网络中,通过将更粗采样的图像输入与来自上一次迭代的本地预测相结合,每个迭代逐步地包含更多的上下文这个方向正好与我们的方法相反,我们的方法首先进行全局预测,然后进行迭代优化此外,尽管它们在所有尺度上应用相同的网络参数,但我们可以学习不同的网络,这些网络可以专门进行适合其阶段的编辑

最近,在并行工作中,Long等人[24]通过应用不同图层的要素图上的1x1卷积标签分类器,并平均输出平均值,使最近的VGG ImageNet模型[32]适应语义分割。相比之下,我们将网络应用于不同尺度的序列,这使得他们能够从整个图像视场开始进行更复杂的编辑和细化因此,我们的架构很容易适应许多任务,而通过考虑相对较小的上下文和求和预测,它们特定于语义标记。

三、模型体系结构

我们的模型是一个多尺度的深度网络,它首先基于整个图像区域预测一个粗略的全局输出,然后使用更精细的局部网络对其进行细化。该方案如图1所示。虽然我们的模型最初是基于[8]提出的架构,但它提供了一些架构改进首先,我们使模型更深(更复杂的层)。其次,我们在更高的分辨率下增加了第三个刻度,使最终输出分辨率达到输入的一半,或者说NYUDepth的147*109。第三,我们通过多通道特征映射,而不是从比例1到比例2传递输出预测;通过这样做,我们发现我们也可以从一开始就联合训练网络的前两个比例,在一定程度上简化了训练过程并产生性能增益。

Scale 1:全图像视野:网络中的第一个尺度基于一个大的全图像视场,预测整个图像区域的一组粗糙但空间变化的特征,我们通过使用两个完全连接的层来实现这一点。最后一个完整层的输出在其空间维度上被64个特征重新定形为1/16比例,然后被4到1/4 尺度的因子上移注意,由于特征上采样是线性的,这对应于将一个完全连接的大层从1.6层分解到更大的74*55映射;由于这样的矩阵太大,并且仅能在给定更多约束输入特征的情况下产生模糊输出,因此我们限制分辨率和上采样。但是,请注意,1/16尺度的输出仍然足够大,能够捕获相当大的空间变化,并且实际上是粗堆栈的1/32尺度最终卷积特征的两倍。

由于顶层是完全连接的,所以输出中的每个空间位置都连接到所有图像特征,合并了一个非常大的视野。这与[6,9]的多尺度方法形成对比,后者生成的地图中,每个输出位置的视野是以输出像素为中心的更局部区域。正如我们在第7.1节中所研究的,这种全视图连接对于深度和法线任务特别重要。

如图1所示,我们训练了两种不同大小的模型:一种是基于ImageNettrained AlexNet[19],另一种是使用Oxford VGG网络初始化[32]我们报告所有任务中模型之间的性能差异,以衡量每个任务中模型大小的影响。
在这里插入图片描述
Scale 2:预测:第二个比例尺的工作是通过将更详细但更窄的图像视图与粗网络提供的完整图像信息结合起来,以中等分辨率生成预测。我们通过将粗网络的特征映射与以更精细的步幅执行的单层卷积和池中的特征映射连接起来来实现这一点(参见图1)。第二个尺度的输出是55x74预测(对于NYUDepth),信道数量取决于任务。我们共同训练模型的1级和2级,在第4节中描述的损失上使用SGD。

**Scale 3:更高分辨率:**我们模型的最终尺度将预测细化到更高的分辨率。我们将Scale-2输出与原始输入以更精细的步幅生成的特征图连接起来,从而合并图像的更详细视图。进一步的细化,将输出与更高分辨率的细节对齐,产生空间一致但非常详细的输出。最终输出分辨率是网络输入的一半。

四、任务

我们将相同的架构结构应用于我们研究的三个任务:深度、法线和语义标记每个都使用不同的损失函数和定义任务的目标数据。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在标记NYU Depth RGB-D数据集时,我们使用地面真实深度和法线作为额外的输入通道。我们将三种输入类型(RGB、深度和法线)中的每一种都卷积成一组不同的3299过滤器,然后将得到的三个特征集与上一个刻度的网络输出连接起来,形成下一个刻度的输入。我们也尝试了由[14]提出的“HHA”编码,但是在我们的例子中没有看到任何好处,因此我们选择了直接使用深度和xyz法线的简单方法。注意第一个刻度是用ImageNet初始化的,我们只保留RGB。将卷积分别应用于每种输入类型,而不是将像素空间中的所有通道连接在一起并对联合输入进行过滤,从而在最低的过滤级别上增强了特征之间的独立性,我们发现这有助于提高性能。

五、训练

5.1 训练过程

我们使用SGD分两个阶段训练我们的模型:首先,我们联合训练scale 1和scale 2。其次,我们确定了这些scale和训练scale 3的参数。由于比scale 3包含的像素是比scale 2的四倍,因此为每个渐变步骤使用整个图像区域进行训练是非常昂贵的。为了加快训练速度,我们改为使用大小为74x55的随机裁剪:我们首先通过scale 1和2向前传播整个图像,向上采样,然后裁剪得到的scale 3输入,以及相应位置的原始RGB输入。裁剪后的图像和scale2预测通过scale 3网络进行前向和后向传播,并更新权重。我们发现,这可以将训练速度提高约1/3,包括前两个量表的推理开销,并且在随机性增加的情况下,即使误差不是稍微好一点,也会产生大致相同的误差。

这三个任务在几乎所有层都使用相同的初始化和学习速率,这表明超参数设置实际上对任务的更改相当健壮。首先使用深度任务对每个任务进行调整,然后使用一个由50个场景组成的小验证集验证每个任务的大小顺序是否合适。唯一的区别是:(i)normals任务的学习率是depth或labels的10倍。(ii)1.6层和1.7层的相对学习率分别为0.1(深度/法线),而语义标记为1.0层和0.01层。(iii)由于训练图像较少,1.6层的深度/法线的丢失率为0.5,而语义标签的丢失率为0.8。

我们使用ImageNet训练的权重初始化Scale 1中的卷积层,并随机初始化scale1中的完全连接层以及Scale 2和3中的所有层我们为AlexNet初始化模型使用大小为32的批,但由于内存限制,为VGG初始化模型使用大小为16的批在每一种情况下,我们在大约2m梯度步长之后,将全球学习率降低10倍,并训练另外的0.5米步长。

5.2 数据扩充

在所有情况下,我们应用随机数据转换来增加训练数据。我们使用随机缩放、平面内旋转、平移、颜色、图片和对比度。当转换输入和目标时,我们将相应的转换应用于RGB、深度、法线和标签。注意,法向量变换是世界空间变换的逆转置:翻转和平面内旋转需要移动或旋转法向量,而要将图像缩放为因子s,我们将深度除以s,但将法向量的z坐标相乘,然后重新规范化。

5.3.合并深度和法线

我们将深度和法线网络组合在一起共享计算,使用单个比例1堆栈创建网络,但分离比例2和3堆栈。因此,在给定RGB图像的情况下,我们同时预测深度和法线与使用两个单独的模型相比,这将产生1.6倍的加速。[^1] 引文(这个共享模型还使我们能够尝试增强预测法线与通过预测深度的有限差分获得的法线之间的兼容性(预测法线的直接性能比使用有限差分要好得多)然而,尽管该约束能够从有限差分中改善法线,但它未能单独改善任一任务。因此,当我们使用共享模型来提高计算效率时,我们不使用额外的兼容性约束。)

六、性能试验

6.1.深度

我们首先将我们的方法应用于NYU Depth v2的深度预测。我们使用整个NYU Depth v2原始数据分布进行训练,使用官方训练/测试分布中指定的场景分割。然后,我们测试常见的分布深度图,包括填充区域,但约束到轴对齐矩形,在那里有有效的深度图投影。由于网络输出的分辨率低于原始NYU Depth 图像,并且排除了一个小边界,因此我们双线性地将网络输出提升到原始640x480图像尺度,并使用跨双边滤波器外推丢失的边界。我们将我们的方法与Ladicky[20]、Karsh[18]、Baig[1]、Liu[23]和Eigen[8]等人以前的工作进行了比较。
结果见表1。由于我们更大的体系结构和改进的培训,我们的模型在所有指标中都获得了最佳性能此外,我们的模型的VGG版本显著优于较小的alexnet版本,重新强调了模型大小的重要性;即使深度任务似乎与最初训练粗权值的分类任务相去甚远,情况也是如此。图2中的定性结果显示细节锐度比[8]有了实质性的提高。
在这里插入图片描述
在这里插入图片描述
6.2 曲面法线

接下来,我们将我们的方法应用于曲面法线预测。我们比较了Fouhey等人的3D原语(3DP)和室内折纸作品[10,11],Ladicky等人[21],和wang等人。[37]。与深度网络一样,我们使用完整的原始数据集进行训练,因为可以为所有图像生成地面真值正常地图由于不同的系统有不同的方法计算地面真值法向图,我们比较了使用[21]中构造的地面真值和[31]中使用的方法。基本ground truths之间的差异主要是因为[21]使用了更积极的平滑;因此[21]倾向于呈现平坦区域,而[31]则更嘈杂,但会保留更多细节。我们使用与[10]中相同的度量标准来衡量性能:所有未屏蔽像素与地面真值的平均和中值角度,以及角度在三个阈值内的向量百分比。

结果见表2我们模型的较小版本的性能与Wang等人的相似或略好,而较大版本的性能明显优于所有比较方法图3显示了示例预测。注意我们的方法捕获的细节,例如第一排床上的毯子曲率、第二行中的沙发和最后一行中的物体。
在这里插入图片描述
在这里插入图片描述

6.3 语义标签

6.3.1NYU Depth

最后,我们将我们的方法应用于语义分割,首先也是在nyudepth上。因为这些数据提供了一个深度通道,所以我们使用地面真实深度和法线作为语义分割网络的输入,如第4.3节所述。我们分别在[31]、[6]和[13]中描述的带有4、13和40个标签的语义类集上评估我们的方法四类分类任务使用高级类别标签“fioor”、“structure”、“fuiture”和“props”,而13类和40类任务使用不同的更细粒度类别集。我们比较了几种最新的方法,使用常用的度量来评估每个任务:对于4类和13类任务,我们使用像素级和每类精度;对于40类任务,我们还比较了使用每个类的平均像素频率加权的Jaccard索引和flat平均Jaccard索引。

结果见表3在4类和14类任务中,我们明显优于比较方法。在40类任务中,我们的模型优于gupta等人。“14,两种型号,以及Long等人。更大的尺寸定性结果如图4所示。尽管我们的方法不使用超混合或任何分段常数假设,但它在大多数情况下倾向于产生大的常数区域。
在这里插入图片描述
在这里插入图片描述

6.3.2 SIFT Flow

我们通过在SIFT Flow数据集上进行评估,验证我们的方可以应用于其他场景类型。该数据集包含将室外城市景观和景观分割为33类的图像。我们发现不需要为这个数据集调整卷积核大小或学习率,只需直接传递NYU Depth使用的值;但是,我们确实调整了层的输出大小以匹配新的图像大小。

我们与Tighe等人进行比较。[35],Farabet等人[9]、Pinheiro[28]和Long等人。[24]注意Farabet等人训练两个模型,使用经验或重新平衡的类分布通过重采样超级混合。我们通过在交叉熵损失中重新加权每个类来训练我们模型的一个更为类平衡的版本;我们将每个像素加权,其中是类c的像素数除以存在c的图像中的像素总数,而是这些频率的中值。

结果见表4;我们将模型的常规(1)和重加权(2)版本与比较方法进行比较我们的小型模型在很大程度上优于Long等人。,而我们的大型模型的性能类似于Long等人这说明我们的模型不仅对不同的任务,而且对不同的数据都有适应性。
在这里插入图片描述

6.3.3 Pascal VOC

此外,我们还使用Pascal VOC验证了我们的方法。与 Long 等人 [24] 类似,我们使用 2011 年培训集进行训练,增加了 Hariharan 等人收集的 8498 张培训图像 [16],并使用 2011 年验证集中的 736 个图像进行评估,这些图像并非在 Hariharan 额外集,以及 2011 年和 2012 年 test 集。

我们在NYU Depth和SIFT FLow模型中执行在线数据扩充,并使用相同的学习速率。由于这些图像具有任意的长宽比,因此我们在正方形输入上训练模型,并将每个图像的较小一侧缩放到256;在测试时,我们应用步幅为128的模型来覆盖图像(通常两个应用程序就足够了)。

结果如表5和图5所示。我们与Dai等人进行比较。[7],Long等人[24]和Chen等人[5];后者是最近的一项工作,它增加了一个卷积网络,该网络具有大的顶层字段和完全连接的CRF。我们的模型与Long等人的模型性能相当,甚至可以推广到多个任务,这一点可以从它在深度和正态性预测方面的娴熟性得到证明。
在这里插入图片描述
在这里插入图片描述

七、探索实验

7.1 Contributions of Scales

在表6中,我们比较了根据模型中不同尺度分解的性能。对于深度、法线和4-13类语义标记任务,我们只使用scale 1、scale 2、二者或所有三个scale 1、2和3来训练和评估模型。对于粗scale 1预测,我们将粗堆栈的最后一个完全连接层替换为直接输出到目标大小的完全连接层,即根据任务的不同,1、3、4或13个通道的像素映射。空间分辨率与模型中用于粗糙特征的分辨率相同,并且以相同的方式上采样。
在这里插入图片描述

我们报告了“abs相对差”度量(即| D- D*|/D*)来比较深度、法线的平均角度距离和语义分割的像素精度。
首先,我们注意到随着规模的增加(第1、3和4行),所有任务都在逐步改进。

此外,我们发现对性能的最大贡献是深度和法线的Scale 1,但语义任务的局部Scale 2 越多, 但是,这只是因为深度和法线通道在 Scale 2 中引入语义标记任务。通过研究只含有RGB输入的标签网络,我们发现粗尺度再次成为较大的贡献者,说明了全局视图的重要性。(当然,这个Scale也是用与语义任务密切相关的ImageNet卷积权重初始化的;但是,即使是随机初始化,仅13个类的量表1就达到了54.5%,尽管贡献较小,但仍然是最大的)。

7.2.深度和法线输入的效果

事实上,我们可以从RGB图像中恢复大部分深度和法线信息,这自然会导致两个问题:(i)在语义标记任务中,深度和法线输入相对于RGB有多重要?(ii)如果我们用我们的网络所做的预测来代替真实的深度和法线输入会发生什么?

为了研究这个问题,我们在三个输入条件下训练和测试了我们的网络,分别使用scale 2和scale 1和scale2进行13类语义标记任务:(a)仅使用RGB图像,(b)RGB图像以及预测的深度和法线,或(c)RGB加上真实深度和法线。结果见表7。与单独使用RGB相比,使用地面真实深度/法线显示出显著的改进。使用这两种比例时,预测的深度/法线似乎没有什么效果,但仅使用Scale 2时,效果明显改善。我们认为,这是因为,由预测深度/法线提供的用于标记的任何相关信息也可以从输入中提取;因此,标记网络可以仅从标签目标自身学习相同的信息然而,这假设网络结构能够学习这些关系:如果不是这样,例如,当只使用scale 2时,我们确实看到了改进。这也与第7.1节一致,在第7.1节中,我们发现粗网络对于所有任务的预测都很重要——事实上,将预测的深度/法线提供给scale 2可以恢复RGB-only scales 1+2模型获得的大部分性能。
在这里插入图片描述

八、讨论

深度、曲面法线和语义标签一起提供了对场景的丰富描述。我们提出了一种使用卷积网络的简单、快速的多尺度结构,该结构在所有三种模式上都具有优异的性能。这些模型击败了我们探索的绝大多数基准的现有方法。这是令人印象深刻的,因为这些方法中的许多都是特定于单一模式的,而且往往比我们的算法更慢、更复杂因此,我们的模型为这三个任务提供了一个方便的新基线。为此,代码和经过训练的模型可以在https://cs.nyu.edu/~deigen/dnl/

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值