Semantic Visual Localization-论文阅读笔记

本文提出了一个基于3D几何和语义信息进行视觉定位的新方法:
在这里插入图片描述

具体实现方法:

(1)采用RGB-D相机作为系统输入,分别对输入图像进行像素级的语义分割,并根据深度信息投影到3D空间中,融合得到体素级的3D语义地图。

(2)根据语义类别对体素进行聚类,得到一个个subvolume个体。

(3)采用变分编码-解码结构对subvolume进行处理,幻想出subvolume中被遮挡的部分

(4)采用变分编码-解码的潜在空间输出作为subvolume的描述子,同时对语义和结构信息进行压缩编码

(5)根据描述子对两地图进行匹配,过程同视觉词袋相似,也会通过下线训练得到一系列单词,通过K层聚类来加速匹配

(6)两地图对齐,根据缩放比例a,穷尽枚举所有的旋转和平移量,分别进行匹配验证,匹配好的标准不仅是体素对齐,语义也要相同。

思考:本文采用神经网络对3D几何和语义信息进行一个压缩编码,生成一个描述子,定位后续过程就与典型的视觉词袋相似了。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值