论文阅读-Vision-based topological mapping and localization methods: A survey

最新推荐文章于 2022-08-19 22:34:58 发布

qq_23418081

最新推荐文章于 2022-08-19 22:34:58 发布

阅读量279

点赞数 1

分类专栏：建图定位与导航

本文链接：https://blog.csdn.net/qq_23418081/article/details/105689808

版权

建图定位与导航专栏收录该内容

8 篇文章 0 订阅

订阅专栏

论文阅读-Vision-based topological mapping and localization methods: A survey

论文阅读-Vision-based topological mapping and localization methods: A survey

论文阅读-Vision-based topological mapping and localization methods: A survey

摘要

拓扑图将环境建模为图形，其中节点是环境的独特位置，边缘指示它们之间的拓扑关系。由于它们的简单性和存储需求，它们代表了经典度量标准映射的一种有趣替代，这使拓扑映射和本地化成为活跃的研究领域。多年来提出的不同解决方案已经围绕几种传感器进行了设计。但是，在过去的几十年中，由于技术的进步和相机可以提供的有用信息的数量，出现了视觉方法。在本文中，我们回顾了过去十五年来提出的主要解决方案，并根据所使用的图像描述符的种类对其进行了分类。每种方法的优缺点都经过了彻底的审查和讨论。

1. Introduction

讲了SLAM、定位、拓扑地图、度量地图的一些概念以及特点
关于机器人地图的构建，度量和拓扑图是公认的两个主要范例。公制地图尽可能精确地表示世界，维护着许多有关环境细节的信息，例如距离，度量或大小，并且通常根据全局坐标系对其进行引用。
相反，拓扑图[1-3]通过图形抽象地表示环境，其中节点表示环境中的独特位置，而圆弧则模拟了它们之间的关系

这篇文章主要内容，我们将主要考虑处理拓扑图的方法，尽管我们还将考虑以某种方式考虑环境拓扑的混合解决方案。

注意，诸如Olson [7]，TreeMap [8]，Square Root SAM [9]，iSAM [10]，TORO [11]，稀疏姿势调整[12]，iSAM2 [13]或g2o [14]之类的算法都可以将拓扑图作为输入。

但是，姿势图SLAM节点表示代理所达到的姿势，而不是环境的独特位置。此外，姿态图SLAM中的位置是车辆的公制位置，而不是世界外观的离散模型中的定性估计。由于这些原因，我们将不在本调查范围内考虑此类映射算法。
在这方面，一个相关的研究领域是场景分类或视觉场所分类（VPC）[15]。该区域的主要目标是粗略地找到地方的类别。
例如，给定当前图像，目标是得出当前位置是厨房的结论。一些作者使用这些框架创建拓扑图，形成已知位置的图。
但是，可以将VPC视为不同的研究方向，而这些工作也超出了本文的范围。

地图的质量和后部定位将直接取决于用于可视化描述不同环境位置的方法。

因此，我们根据描述方法将不同的方法分类为：基于全局描述符的方法，基于局部特征的方法和基于单词袋（BoW）方案的方法。我们还确定可以结合使用这些方法。

请注意，BoW方案主要根据反向视觉文件的集合来量化从图像中提取的局部特征，该BoW方案主要与倒排文件结合使用，以一种有效的方式索引视觉信息，从而可以快速检索图像，因此可以认为作为局部特征方法中的子类别。

另一种可能性是考虑到，在这些方法中，图像表示从局部特征集变为图像中每个视觉单词出现的直方图，从而将描述符简化为整数向量。

保留BoW类别，因此将BoW相关论文分类为局部特征相关论文。

内容安排：
第2节列举了基于全局描述符的基础工作；第3节介绍了基于局部特征的方法；第4节介绍了根据BoW计划构建的主要解决方案；第5节列举了将图像与其他图像组合起来的主要作品。第6节比较了一些方法。第7节总结了报告，包括讨论并提出了一些开放的研究思路。

2. Methods based on global descriptors

主要讲述了不同的全局描述符
直方图，统计图片信息

2.1. Histograms

有几分不变特征的方法
这些积分不变特征是对于某些欧几里德运动（例如旋转或平移）不变的特征。

2.2. The Gist descriptor

要点描述符

最初是为场景识别而开发的，它基于这样的观察：在特定条件下，人类能够一眼就能对图像进行分类。他们的作者得出的结论是，人类会接受所谓的场景空间包络，即定义为与空间形状相关的一组感知属性。

他们证明了该空间包络与二阶统计量（区分光谱模板）和场景中结构的空间排列（窗口判别光谱模板）紧密相关。

2.3. Vertical regions

垂直区域

提取垂直线以定义全局全向图像也已经用于拓扑映射和定位，特别是由于其结构的性质，特别是用于室内环境。在这方面，拉蒙等。 [28]提出了场所指纹的概念。指纹是使用不同算法提取的特征的循环列表。在他们的情况下，他们使用了

指纹是使用不同算法提取的特征的循环列表

他们改进了描述符，发布了另一个版本称为DP-FACT [30]，该版本使用Dirichlet混合模型来组合从全向图像中提取的颜色和几何特征

2.4. Discrete Fourier transform

离散傅里叶变换

2.5. Biologically-inspired approaches

生物启发式的方法

拓扑图的图像被编码为从PCA获得的低维本征空间中的流形

3. Methods based on local features

基于局部特征的方法

在上一节中，我们回顾了基于全局表示的解决方案，其中描述是使用整个图像内容执行的。这样的描述对于捕获场景的总体结构效果很好，但是它们不能很好地解决一些视觉问题，例如部分遮挡或相机旋转。

Kosecka和Yang [97,98]使用SIFT功能描述室内环境中的图像，并基于简单的投票方案执行了全球定位过程。

为了克服由于环境动态变化而产生的问题，他们建议使用隐马尔可夫模型将有关各个位置之间的邻域关系的其他知识纳入其中。

BoRF提出的主要问题是，在添加新图像时，要管理的功能数量增加，并且线性搜索匹配变得棘手。在[101]中，通过kd-tree结构索引特征克服了这一缺陷

使用仅保留持久性功能的想法，几位作者向社区提出了各种解决方案。 Rybski等。 [102]使用Kanade–Lucas–Tomasi（KLT）特征跟踪器来匹配一系列全向图像中的持久性特征，并逐步构建拓扑图。

最近，Johns和Yang [105]引入了一种方法，其中地图由跨多个图像检测到的一组地标组成，跨越了节点图像之间的连续空间。

一些研究人员根据一组输入图像构建环境的层次图。这些方法将较高级别的概念图（通常是拓扑图）与较低级别的和几何精确的图相结合，试图最大程度地发挥优势并最大程度地减少每种图的问题，然后将它们组合到不同的映射技术中

然后使用图分割算法对节点进行聚类以构建高级表示

其他作者没有从一组几何关系中推断出高级拓扑图，而是提出了一种替代的混合表示形式，其中全局拓扑图的每个节点都包括自己的度量子图。

4. Methods based on Bag of Words

4.1. Offline visual vocabulary approaches

4.2. Online visual vocabulary approaches

5. Methods based on combined approaches

6. A comparison between different approaches

对于前四种方法，我们使用了作者在各自网站中提供的代码。
其他算法已由我们自己按照相应论文中指示的准则实施。

我们使用两个室外城市数据集评估每种方法，这些数据集是为验证原始FAB-MAP [147]而发布的

因此，在这种比较中，我们有兴趣找到最佳的召回率，而这比使用每种方法在100％的精度下所能达到的召回率高。

请注意，RTAB-Map的性能有意与执行它的机器的计算资源相关，因为不同存储器之间的字转换受处理时间控制，所以会影响闭环检测性能的因素

7. Discussion and conclusions

在这项工作中，我们认为地图的拓扑节点是机器人环境的唯一位置，可以通过其外观来表示。

关于上面列举的方法的不同类别，全局描述符通常计算起来非常快，从而有利于图像之间的匹配过程并减少了映射和本地化任务的计算需求。作为主要缺点，它们对遮挡和照明效果的鲁棒性较差，这会导致较低的判别力和感知混叠效果的增加，在这些位置上，不同的位置可以被视为相同。它们已在其他相关研究领域广泛使用，例如场景分类。

局部特征通常在遮挡和缩放，旋转和照明方面更健壮。

此外，可以容易地执行图像之间的相对姿势的恢复，该恢复可以用于确认两个图像是否来自同一场景。

但是，存储要求和计算成本比全局描述符要高，并且匹配过程也更加复杂，因为有时每个查询描述符都需要在一大套功能中找到最接近的邻居。

全局描述符更易于计算并节省存储空间，但牺牲了判别能力，从而降低了解决方案的性能。

在这个案例中，描述和匹配图像的另一种方法是词袋（BoW）算法，该算法可以有效地索引包含分层方案和倒排索引结构

作为主要限制，可以提到以下事实：由于量化过程，由于词汇构造方法的粗糙性而导致的嘈杂单词的存在以及单词之间的空间关系的丧失，导致了感知混叠的效果恶化。

视觉词典可以离线或在线生成。作为主要缺点，离线方法需要训练阶段，其中有时必须聚集数百万个描述符。
这可能需要几个小时，具体取决于图像数量和使用的聚类技术。此外，机器人可以在外观完全不同于用于生成词典的训练集的环境中操作，这意味着它不能代表场景，从而增加了错误检测的可能性。

一种替代方法是，当机器人在整个环境中导航时，以增量方式在线构建密码本。
但是，这意味着要在字典中插入特征或从字典中删除特征，从而限制了其可能的大小。

Hou等人提出了有关视觉词典的重用及其通用性的有趣研究。 [203]。如今，尽管已经提出了几种方法，但是可以有效地管理BoW计划的在线视觉词典是人们感兴趣的话题。另一个有趣的问题是长期映射，以便在环境外观变化的情况下长时间管理地图。表11总结了每种字典生成方法的主要优点和局限性。

参考：

Vision-based topological mapping and localization methods: A survey

个人总结

这篇文章聚焦于拓扑地图，看重于拓扑地图对回环检测的作用，分析了拓扑地图的不同环境描述方法，对比了几种已有工程的性能，尤其是分析了八种工程方法的性能对比。

后续可以着重看一下这几种方法的特点以及工程代码的可以参考的部分。

作为对比，对拓扑地图的分析还可以从拓扑地图的构建方法来入手，
以度量地图为基础生成
直接生成。
节点先生成
在线生成等这几个内容。

qq_23418081

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读-Vision-based topological mapping and localization methods: A survey

论文阅读-Vision-based topological mapping and localization methods: A survey论文阅读-Vision-based topological mapping and localization methods: A survey摘要1. Introduction2. Methods based on global descriptors2...
复制链接

扫一扫

专栏目录