SemanticFusion: Dense 3D Semantic Mapping with Convolutional Neural Networks
ICRA2017
论文梳理
整体框架的组成为三个部分:
- A real-time SLAM system ElasticFusion
- A Convolutional Neural Network
- A Bayesian update scheme
其中过程如下:
CNN接收2D图像并且返回每个像素的分类概率分布,然后贝叶斯更新模型将跟踪每个曲面的分类概率分布,然后使用SLAM系统提供的数据关联来基于CNN的预测更新这些概率。(SLAM系统提供了什么样的数据关联?)最后,我们使用CRF regularisation框架来使用地图自身的尺度信息来改善语义预测。
接下来将详细介绍。
A. SLAM Mapping
选择ElasticFusion作为SLAM系统。对于每一帧k,ElasticFusion通过结合ICP和RGB的匹配来跟踪相机姿态(实际上ICP匹配即考虑位置信息,RGB匹配考虑外表相似信息。),来得到新的姿态。使用这个相机姿态,在地图中加入新的点元(surfels),同时更新已存在点元的位置、法向量和颜色信息。
在该过程中同步运行回环检测,并且基于结果优化整个地图。
[接下来作者强调了一下用ElasticFusion中储存三维信息方式的优越性] 基于变形图和点元的ElasticFusion表现方式让其自然而然地适应了这个任务,允许概率分布能够与点元一起在回环中”携带(carried along)”,同时融合了新的深度读数来更新点元的深度和法向量信息。这个过程不需要破坏点元或者其基于的概率分布。
B. CNN Architecture
接下来介绍该系统中应用的CNN模型。基于caffe,使用Deconvolutional Semantic Segmentation 网络架构,基于VGG 16-layer网络,但是额外配备了最大unpooling和deconvolutional的训练来输出稠密像素级语义概率地图的神经元。
它为RGB输入训练,在接下来我们称呼其为RGB-CNN。
由于深度信息是有效的,作为第四通道输入网络中训练。
我们将到来的图像缩放到基本的224x224分辨率,缩放过程中用双线性差值获得RGB,用最邻近获得深度。
C. Incremental Semantic Label Fusion
感觉是全文重点。