#每天一篇论文#(214/365) Fusenet：通过基于融合CNN架构将深度融入语义分割

最新推荐文章于 2022-10-16 09:23:48 发布

流浪机器人

最新推荐文章于 2022-10-16 09:23:48 发布

阅读量2.3k

点赞数 1

分类专栏：论文每天读文章标签： RGBD语义分割 RGB与深度融合

本文链接：https://blog.csdn.net/qq_26623879/article/details/100165665

版权

论文每天读专栏收录该内容

8 篇文章 4 订阅

订阅专栏

FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture

在本文中，我们解决了室内场景理解的问题，假设RGB和深度信息同时可用（见图1）。这个问题在包括机器人在内的许多感知应用中相当关键。我们注意到，虽然室内场景具有丰富的语义信息，但由于对象的遮挡和背景的杂乱，它们通常比室外场景更具挑战性。例如，室内对象类（如椅子、餐桌和窗帘）比室外对象类（如汽车、道路、建筑和天空）更难识别。
在这里插入图片描述
**
A.摘要
B.贡献
C.方法
D.实验

A.摘要

本文讨论了室内场景在RGB-D数据上的语义标注问题。随着RGB-D相机的可用性，预计额外的深度测量将提高精度。本文研究了一种利用卷积神经网络（CNN）将互补深度信息整合到语义分割框架中的方法。近年来，编码器-解码器全卷积CNN体系结构在语义分割领域取得了巨大的成功。基于这一观察，我们提出了一种编码器-解码器类型的网络，其中编码器部分由两个网络分支组成，它们同时从RGB和深度图像中提取特征，并随着网络的深入将深度特征融合到RGB特征图中。综合实验评估表明，所提出的基于融合的体系结构在具有挑战性的SUN RGB-D基准测试中获得了最先进的方法，获得了76.27%的全局精度、48.30%的平均类精度和37.29%的平均相交精度，而不需要进行任何测试。

B.贡献

我们研究了如何将互补深度信息合并到语义分割框架中的解决方案。为此，我们提出了一种编码器-解码器类型的网络，称为fusenet，其中编码器部分由两个网络分支组成，这些网络同时从RGB和深度图像中提取特征，并随着网络的深入将深度特征融合到RGB特征图中；
我们提出并研究了两种不同的方法融合的RGB和深度通道。我们还分析了所提议的网络架构，即密集和稀疏融合（参见图3），从融合的级别来看；
实验结果表明，该方法能够在杂乱的室内场景中融合RGB和深度信息进行语义分割。此外，我们的方法在对具有挑战性的sun rgb-d数据集[10]进行分割精度评估方面与最先进的方法取得了竞争性的结果。

C.方法

The State of the Arts on RGB-D Data HHA表示方法

Gupta等人提出了深度信息的新表示。这种表示法被称为hha，由三个通道组成：视差、像素高度和法线与重力矢量之间的角度，分别基于估计的底层。通过使用hha表示，在分割精度方面取得了表面改进[1]。另一方面，仅从RGB通道检索到的信息仍然主导着hha表示。正如我们将在第4节中看到的，hha表示所包含的信息不超过深度本身。此外，计算hha表示需要很高的计算成本。本文研究了一种以较少的计算量开发深度信息的较好方法。

FuseNet结构

我们提出了一种编码器-解码器类型的网络结构，如图2所示。该网络主要由两部分组成：1）编码器部分提取特征，2）解码器部分将特征映射采样回原始输入分辨率。这种编码器-解码器的风格已经在以前的一些作品中引入，如deconvnet[6]和segnet[13]，并取得了良好的分割性能。虽然我们提出的网络是基于这种类型的架构，但我们进一步考虑有两个编码器分支。这两个分支从RGB和深度图像中提取特征。我们注意到深度图像被标准化为与彩色图像具有相同的值范围，即在[0255]的间隔内。为了结合来自两个输入模块的信息，我们将深度分支的特征映射融合到RGB分支的特征映射中。
在这里插入图片描述

特征融合

输入RGB特征和depth特征融合
在这里插入图片描述

D.实验结果

在这里插入图片描述

流浪机器人

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
#每天一篇论文#(214/365) Fusenet：通过基于融合CNN架构将深度融入语义分割

**FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture在本文中，我们解决了室内场景理解的问题，假设RGB和深度信息同时可用（见图1）。这个问题在包括机器人在内的许多感知应用中相当关键。我们注意到，虽然室内场景具有丰富的语义信息，但由于对象的遮挡和背景的杂乱，它们通常比...
复制链接

扫一扫

专栏目录