基于RGB-D的语义分割和目标检测介绍

本文介绍了将深度图引入计算机视觉处理任务,特别是语义分割和目标检测。通过分析和实验,作者展示了多模态神经网络如何利用深度数据提升性能,提出了一种新型网络架构,实现中间层融合,优化了深度数据处理的网络分支。实验证明,这种方法在深度数据上的滤波器与RGB数据训练的滤波器显著不同,提高了语义分割和对象检测的准确性。
摘要由CSDN通过智能技术生成

寒假的时候看了一篇论文——Multimodal Neural Networks: RGB-D for Semantic Segmentation and Object Detection这篇论文是2017年发表的一篇会议论文介绍将深度图引入计算机视觉的处理任务,下面是我对这篇文章的一些解读。

1.引言

图像内容的语义解释是计算机视觉中最基本的问题之一,并且在各种应用中具有最高的重要性。极大数据集的可用性推动了强大的数据驱动机器学习方法的发展。特别是,卷积神经网络(CNN)已经在各种不同的任务和应用中推动了图像理解领域的发展。同时,分辨率不断提高的相机成本在过去几年大幅下降。我们预计这种趋势会持续下去,因此将重点放在可以处理这种高分辨率图像的方法上。同时,我们对能够满足高实时要求的高效方法感兴趣,例如,机器人或自动驾驶。自然地,计算机视觉社区的主要焦点在于彩色图像的解释,其忽略了来自其他域的互补输入的可用性,例如,深度,红外线或运动。在这项工作中,我们将重点放在深度数据上,作为CNN的附加输入。但是,所提出的方法很容易适用于其他模式。

由于像ImageNet [1],MS COCO [2]或Place[3]等大型数据集仅提供彩色图像并不提供标签,因此无法使用最先进的CNN方法来训练。已经出现了两种不同方法来处理这个问题。 要么只有少量的数据被用于训练,同时接受导致的降级的性能。或者将现有的RGB网络简单地应用于新域,并与负责颜色域的那些分支进行融合。

本次介绍一种新颖的网络体系结构,它实现了来自各个输入域的特征的中间级融合。 这结合了先前方法的两个优点:首先,网络可以通过联合特征处理利用高度复杂的域内依赖性,以最大化网络的语义准确性。其次,它允许在大型数据集上重用现有的初始化。 此外,我们证明,以颜色作为输入设计和训练的网络在深度域中不是最理想的,并且提出了优化的适应架构和初始化方案,从而在语义准确度方面产生显着的改进。 实验表明,使用这种方法在深度数据上学习的滤波器与通过对RGB数据进行训练所获得的滤波器大不相同。

总体而言,本文提出了一种简单而有效的新型网络体系结构,以及除了单一颜色信息之外还利用深度数据的初始化方案。 这种方法可以显着改善计算机视觉中两种不同的常见任务:语义分割和对象检测。 它基于标准的最先进的网络架构,可以轻松适应不同的模式和任务

2. 基于RGB-D的语义分割和目标检测方法

本章节,我们提出了一种新颖的深度神经网络架构,除了单一的颜色信息之外,还可以利用深度图像等其他方式。我们使用Googlenet[4]并将其用于深度数据优化的网络分支进行融合。注意,这项工作中描述的深度信息也适用于其它形式,例如:光流或红外线,基本网络Googlenet也可以修改成其它的网络体系结构如:NiN[5],VGG[6],Resnet[7]。

如图1所示是这篇文章的网络结构图,该网络结构主要由两部分组成第一部分是深度网络也就是NiN网络[5],该网络主要是处理图像的深度信息,提取深度图像特征,第二部分是卷积网络,该网络使用的构架是Googlenet[4],输入RGB三通道特征图在Googlenet[4]网络中进行特征提取,并将深度NiN[5]网络提取的特征融入Googlenet[4]网络中去。

                               

图1.中级网络结构图

2.1 深度网络

本次介绍处理深度图的网络是NiN模型,该模型实际上是在一种在CNN网络上的改进的网络,经典CNN中的卷积层其实就是用线性滤波器对图像进行内积运算,在每个局部输出后面跟着一个非线性的激活函数,最终得到的叫作特征图。而这种卷积滤波器是一种广义线性模型。所以用CNN进行特征提取时,其实就隐含地假设了特征是线性可分的,可实际问题往往是难以线性可分的,GLM(广义线性模型)的抽象能力是比较低水平的,自然而然地我们想到用一种抽象能力更强的模型去替换它,从而提升传统CNN的表达能力[8]。

什么样的模型抽象水平更高呢?当然是比线性模型更有表达能力的非线性函数近似器比如MLP(多层感知器),NiN模型使用mlpconv网络层替代传统的convolution层。mlp层实际上是卷积加传统的mlp(多层感知器),因为convolution是线性的,而mlp是非线性的,后者能够得到更高的抽象,泛化能力更强。在跨通道(crosschannel,cross feature map)情况下,mlpconv等价于卷积层+1×1卷积层,多层感知器相比于传统的CNN网络主要有3个优点

1. 非常有效的通用函数近似器

2. 可用BP算法训练,可以完美地融合进CNN

3. 其本身也是一种深度模型,可以特征再利用

                                       

图2.(a)线性卷积层,(b)多层感知卷积层

图2(a)是传统CNN网络中使用的线性卷积层,图2(b)是NiN模型中使用的多层感知卷积层,采用NIN改进CNN后,我们增强了局部模型的表达能力,这样我们可以在分类层对特征图进行全局平均池化,这种方式更有意义和容易解释(可将最后一层输出的特征图的空间平均值解释为相应类别的置信度,为什么可以这样解释呢?因为在采用了微神经网络后,让局部模型有更强的抽象能力,从而让全局平均池化能具有特征图与类别之间的一致性。同时相比传统CNN采用的全连接层,不易过拟合(因为全局平均池化本身就是一种结构性的规则项)。

                                  

图3.NiN模型结构图

图3是3层mlpconv的完整网络结构经典CNN为了解决广义线性模型抽象能力不足的问题,采用了过完备的滤波器集合来补偿,也就是说学习不同的滤波器用来检查同一特征的不同变体。但是过多的滤波器会对下一层施加额外的负担,因为下一层要考虑来自前一层所有的特征变体的组合。为什么采用NIN是有价值的?因为高层的特征来自低层特征的组合,在低层特征组合成高层特征之前,对每一局部块进行更好地抽象是有利的。

对于深度分支,我们训练和修改NiN [5]变体以获取唯一的深度数据,并使用Cityscapes[9]数据集[6]的大型半监督部分进行初始化。一个NiN网络由多个模块组成,每个模块进一步由一个卷积层组成,其内核大小大于捕获空间信息和多个1x1卷积核的卷积层。 这种模块相当于一个多层感知器(MLP)。 为了进行分类,平均池化层会对每一类得到一个得分。

2.2 RGB特征提取网络     

图像的RGB三色通道的特征提取,本文使用的Googlenet网络,当然除了Googlenet也可以使用其它的基本特征提取网络比如:Resnet,Vgg16等网络。

Googlenet是由9个Inception模块组成,而每个模块又由若干个卷积层和池化层组成,Inception模块如图4所示,该模块采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合,之所以卷积核大小采用1、3和5,主要是为了方便对齐。设定卷积步长stride=1之后,只要分别设定pad=0、1、2,那么卷积之后便可以得到相同维度的特征,然后这些特征就可以直接拼接在一起了,同时在网络中引用了3*3的池化层,网络越到后面,特征越抽象,而且每个特征所涉及的感受野也更大了,因此随着层数的增加,3x3和5x5卷积的比例也要增加,但是,使用5x5的卷积核仍然会带来巨大的计算量。 为此,Googlenet借鉴NIN2,采用1x1卷积核来进行降维。

例如:上一层的输出为100x100x128,经过具有256个输出的5x5卷积层之后(stride=1,pad=2),输出数据为100x100x256。其中,卷积层的参数为128x5x5x256。假如上一层输出先经过具有32个输出的1x1卷积层,再经过具有256个输出的5x5卷积层,那么最终的输出数据仍为为100x100x256,但卷积参数量已经减少为128x1x1x32 +32x5x5x256,大约减少了4倍。

图4.Inception模块结构

Googlenet的整体结构如图5所示,GoogLeNet采用了模块化的结构,方便增添和修改,网络最后采用了average pooling来代替全连接层,想法来自NIN,事实证明可以将TOP1 accuracy提高0.6%。但是,实际在最后还是加了一个全连接层,主要是为了方便finetune(微调网络),,虽然Googlenet移除了全连接层,但是网络中依然使用了Dropout,为了避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度。文章中说这两个辅助的分类器的loss应该加一个衰减系数,但看caffe中的model也没有加任何衰减。此外

  • 7
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值