#每天一篇论文微习惯# （215/365） DA-RNN: Semantic Mapping with Data Associated Recurrent Neural Networks

最新推荐文章于 2022-04-12 16:55:00 发布

流浪机器人

最新推荐文章于 2022-04-12 16:55:00 发布

阅读量792

点赞数

分类专栏：论文每天读文章标签： RGBD语义地图重建语义地图深度RGB融合语义

本文链接：https://blog.csdn.net/qq_26623879/article/details/100189155

版权

论文每天读专栏收录该内容

8 篇文章 4 订阅

订阅专栏

摘要

三维场景理解对于机器人以有意义的方式与三维世界进行交互非常重要。以前大多数关于三维场景理解的工作都侧重于独立地识别场景的几何或语义属性。在这项工作中，我们介绍了数据相关的递归神经网络（da rnns），这是一个新的框架，用于联合三维场景映射和语义标记。DARNN使用一种新的递归神经网络结构对RGB-D视频进行语义标记。该网络的输出与Kinect Fusion等映射技术相结合，将语义信息注入到重构的三维场景中。在真实数据集和合成数据集上进行的实验表明了我们的方法在语义三维场景映射方面的能力。

我们的工作目标是使用RGB-D视频重建和标记三维场景中的每个观察到的表面元素，提供关于小对象（如碗和杯子）和较大对象（如桌子和椅子）的密集信息。在这种设置中，关键问题是如何组合来自RGB-D帧的信息以提高识别精度。

贡献

1.我们提出了一种新的用于RGB-D视频语义标记的递归神经网络。为了降低内存需求，DA RNN只对场景的当前可见部分执行重复推理，使用数据关联在运行中生成重复单元之间的连接。
2.我们引入了一个新的与数据相关的循环单元来捕获跨视频帧的依赖关系。
3.我们将DA-RNN与Kinect融合，用于放射状三维场景重建。
4.我们在RGB-D场景数据集[18]上提供像素级语义标签，并提供一个新的合成数据集，有助于未来对3D语义映射的研究。

方法

在本节中，我们介绍了使用RGB-D视频进行三维语义建图的框架。首先介绍了单帧语义标记卷积神经网络的设计。然后，我们将单帧网络扩展到一个用于视频语义标记的循环神经网络。最后，我们将递归神经网络与Kinect Fusion结合起来，以便在语义上重建3D场景。
本文的RGB图像和depth图像分别提取提取特征，然后将depth和semantic融合
在这里插入图片描述
如图中所示，当输入数据是多模的，如颜色和深度时，我们设计了双流网络来融合RGB-D数据（图3）。该网络采用不同的卷积层分别处理RGB图像和深度图像，进行特征提取。这些层与单流网络中的特征提取阶段具有相同的结构。为了将这两种特征结合起来，我们引入了两个串联层，分别从RGB图像和深度图像中叠加512个维度特征，生成1024个维度特征。这些特性被嵌入到64维空间中，并被归类为单流网络。
在这里插入图片描述
DA-RNN架构：说明了我们用于语义标记的DARN体系结构。基于我们的单帧标签双流网络，我们引入了一个以当前帧的嵌入特征为输入的循环层，并生成新的特征进行分类。循环层的设计目的是将以前帧中的特征和当前帧中的特征结合起来，以便跨帧利用信息。
在这里插入图片描述
与Kinect Fusion的数据关联：Kinect Fusion表示具有3D体素空间的3D场景，该空间存储截断有符号距离函数（TSDF）的值。体素的tsdf值表示从体素到最近零交叉点（即曲面）的有符号距离。给定深度图像流，这些tsdf值每帧更新一次。为了将深度图像融合到体素空间中，Kinect Fusion执行相机跟踪，即估计每个帧的6自由度相机姿势。通过对当前深度图像中的三维点和从Kinect Fusion地图表面提取的三维点进行ICP，实现了对相机姿态的估计。考虑到Kinect Fusion中两个连续帧的相机姿态，我们通过将一帧反向投影到Kinect Fusion地图中的三维点，然后使用估计的相机姿态将这些三维点投影到另一帧，来计算两帧之间的数据关联。

结果

在这里插入图片描述

流浪机器人

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
#每天一篇论文微习惯# （215/365） DA-RNN: Semantic Mapping with Data Associated Recurrent Neural Networks

摘要三维场景理解对于机器人以有意义的方式与三维世界进行交互非常重要。以前大多数关于三维场景理解的工作都侧重于独立地识别场景的几何或语义属性。在这项工作中，我们介绍了数据相关的递归神经网络（da rnns），这是一个新的框架，用于联合三维场景映射和语义标记。DARNN使用一种新的递归神经网络结构对RGB-D视频进行语义标记。该网络的输出与Kinect Fusion等映射技术相结合，将语义信息注入到...
复制链接

扫一扫