#每天一篇论文#(214/365) Fusenet:通过基于融合CNN架构将深度融入语义分割

**

FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture

在本文中,我们解决了室内场景理解的问题,假设RGB和深度信息同时可用(见图1)。这个问题在包括机器人在内的许多感知应用中相当关键。我们注意到,虽然室内场景具有丰富的语义信息,但由于对象的遮挡和背景的杂乱,它们通常比室外场景更具挑战性。例如,室内对象类(如椅子、餐桌和窗帘)比室外对象类(如汽车、道路、建筑和天空)更难识别。
在这里插入图片描述
**
A.摘要
B.贡献
C.方法
D.实验

A.摘要

本文讨论了室内场景在RGB-D数据上的语义标注问题。随着RGB-D相机的可用性,预计额外的深度测量将提高精度。本文研究了一种利用卷积神经网络(CNN)将互补深度信息整合到语义分割框架中的方法。近年来,编码器-解码器全卷积CNN体系结构在语义分割领域取得了巨大的成功。基于这一观察,我们提出了一种编码器-解码器类型的网络,其中编码器部分由两个网络分支组成,它们同时从RGB和深度图像中提取特征,并随着网络的深入将深度特征融合到RGB特征图中。综合实验评估表明,所提出的基于融合的体系结构在具有挑战性的SUN RGB-D基准测试中获得了最先进的方法,获得了76.27%的全局精度、48.30%的平均类精度和37.29%的平均相交精度,而不需要进行任何测试。

B.贡献

我们研究了如何将互补深度信息合并到语义分割框架中的解决方案。为此,我们提出了一种编码器-解码器类型的网络,称为fusenet,其中编码器部分由两个网络分支组成,这些网络同时从RGB和深度图像中提取特征,并随着网络的深入将深度特征融合到RGB特征图中;
我们提出并研究了两种不同的方法融合的RGB和深度通道。我们还分析了所提议的网络架构,即密集和稀疏融合(参见图3),从融合的级别来看;
实验结果表明,该方法能够在杂乱的室内场景中融合RGB和深度信息进行语义分割。此外,我们的方法在对具有挑战性的sun rgb-d数据集[10]进行分割精度评估方面与最先进的方法取得了竞争性的结果。

C.方法

The State of the Arts on RGB-D Data HHA表示方法

Gupta等人提出了深度信息的新表示。这种表示法被称为hha,由三个通道组成:视差、像素高度和法线与重力矢量之间的角度,分别基于估计的底层。通过使用hha表示,在分割精度方面取得了表面改进[1]。另一方面,仅从RGB通道检索到的信息仍然主导着hha表示。正如我们将在第4节中看到的,hha表示所包含的信息不超过深度本身。此外,计算hha表示需要很高的计算成本。本文研究了一种以较少的计算量开发深度信息的较好方法。

FuseNet结构

我们提出了一种编码器-解码器类型的网络结构,如图2所示。该网络主要由两部分组成:1)编码器部分提取特征,2)解码器部分将特征映射采样回原始输入分辨率。这种编码器-解码器的风格已经在以前的一些作品中引入,如deconvnet[6]和segnet[13],并取得了良好的分割性能。虽然我们提出的网络是基于这种类型的架构,但我们进一步考虑有两个编码器分支。这两个分支从RGB和深度图像中提取特征。我们注意到深度图像被标准化为与彩色图像具有相同的值范围,即在[0255]的间隔内。为了结合来自两个输入模块的信息,我们将深度分支的特征映射融合到RGB分支的特征映射中。
在这里插入图片描述
在这里插入图片描述

特征融合

输入RGB特征和depth特征融合
在这里插入图片描述

D.实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值