【论文笔记】回环检测综述：Methods for Appearance-based Loop Closure Detection

最新推荐文章于 2024-10-15 15:10:10 发布

十月岑

最新推荐文章于 2024-10-15 15:10:10 发布

阅读量2.6k

点赞数 1

分类专栏：深度学习闭环检测/回环检测论文笔记文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_40679814/article/details/103751949

版权

论文笔记同时被 3 个专栏收录

7 篇文章

订阅专栏

深度学习

6 篇文章

订阅专栏

闭环检测/回环检测

6 篇文章

订阅专栏

二、基于表观的回环检测（Appearance-Based Loop Closure Detection）简介

回环检测的性能主要取决于图像的特征描述方法，以及检索之前存在图像的能力。（The performance of an appearance-based loop closure detection algorithm is highly influenced by the description method used to describe images and the ability of the algorithm to retrieve images similar to the current one.）回环检测领域存在的几个挑战：1. 大视角的变化 2.环境的变化 3.检索以往数据的能力（离线or在线；Map很大的时候） 4. 误匹配剔除的能力（宁愿漏掉一个loop，也不要将一个不是loop的认成loop；也即：要使得在P=100%时 Recall尽可能的大）

2.1 图像描述

2.1.1 全局描述子

PHOG（Pyramid Histogram of Oriented Gradients）

主要包括局部形状（local shape）和空间布局(spatial layout )两部分。local shape用HOG特征表示，Pyramid用于表示全局空间分布。如下图所示，在同一张图片上，取L个尺度，每个尺度上做例如，1x1、2x2、4x4 …等分割成一个个cell，每一个cell取HOG特征，组成一个一维向量，最后将这些向量拼接起来作为PHOG特征。
在这里插入图片描述

HOG

1.分割图像
2.计算每个cell内的方向梯度直方图
如何计算呢？
【1】利用任何一种梯度算子（如sobel等）对图像进行滤波
【2】计算每一个像素的梯度值（包括幅度和方向），公式为：
在这里插入图片描述
【3】将360度分为bin份，统计一个cell内各个角度分区的梯度值的总幅度值

3.组成特征，将每一个cell首尾相连得到一个一维向量。
参考链接：https://blog.csdn.net/zhanghenan123/article/details/80853523

2.1.2 局部图像特征

全局描述子的确定：不能很好的处理几个视觉问题：如部分遮挡，光照变化，相机视点变化。（but they are not able to cope with several visual problems like partial occlusions, illumination changes or camera rotations）而局部特征可以解决。
局部特征也称关键点（keypoint）
首先是提取keypoint ,再形成局部特征的关键点集合，最后形成局部描述子（从每个局部特征附近进行一些测量以形成一个描述子）
一个好的特征检测器应该有以下性质：repeatability, distinctiveness, locality, quantity, accuracy and efficiency.

SIFT

SURF（speed up robust feature）

FAST

ORB

2.2 图像检索

首先，全局描述子不能很好的描述图像，从而产生错误的候选图像；其次，局部描述子又因为检测出的描述子太多，对于检索来说是困难的。
所以，我们可以从两方面改善数据库的庞大导致检索困难的问题：采用更加有效的检索方案、使用特征量化

K-D树（更加有效的检索方案）

kd树是一种二叉树，可以用于高维的数据检索。
细节请见：https://www.cnblogs.com/wqbin/p/10744277.html

BOW 词袋模型（特征量化的方法）

主要分为以下几步：

检测出特征点
形成特征描述子
对特征描述子进行聚类，将相似的特征描述子分到同一个视觉单词中
对一副图像形成视觉向量Set={(w1,n1),(w2,n2),(w3,n3),…}，其中wi代表视觉单词的ID，ni代表该视觉单词的权重，权重的计算由TF-IDF得来。
若要判断两幅图像是否形成回环，即评价两幅图像的视觉向量的相似度，这里相似度的度量不能选择简单的L1范数等，因为这样会容易产生错误的结果。

三、回环检测常用数据集

在这里插入图片描述
Lip6 Indoor 具有高的感知偏差（也就是两个很像的场景，例如办公室一样的桌子，但不是同一个地方）
Lip6 outdoor 变换很大的场景
以上都有人工标注的ground-truth
city centre 和 new college 都是Oxford Dataset人工标注的，但是由双目相机拍摄的（同一场景具有左右两张图片）；并且有pose file （标注相机的位姿）。
KITTI 这个数据集具有广泛的应用，并且不是每个序列中存在回环，可以使用其他人（如Arroyo, R., Alcantarilla, P.F., Bergasa, L.M., Yebes, J.J., Bronte, S.: Fast and effective visual
place recognition using binary codes and disparity information. In: IEEE/RSJ International Conference on Intelligent Robots and Systems (2014)）提供的ground-truth.

四、使用尺度不变特征和随机k-d树进行回环检测

Bag-of-Words (BoW) approach 缺点是：容易产生感知偏差（两个相似但不是同一个的场景）；训练阶段耗费时间长。
这里作者以FABMap为baseline, 提出了自己的拓扑地图构建方法：FEATMap。主要使用了使用尺度不变特征，随机k-d树作为数据结构，离散贝叶斯滤波，加强地图结果这四个方面的改进。
首先图像描述使用SIFT, SURT等尺度不变的特征描述。
其次关于拓扑地图的构建：已知相机在运动过程中会产生大量的图像，但是我们不能使用每一张图片，因为有很多的冗余特征，所以引出了关键帧的概念，也就是指在一系列图像序列中选取一张图片作为关键帧，为了选取关键帧，我们需要避免以下两种情况：a.与当前关键帧过于相似的图片；b.robot camera turns，与上张图片太不同的图片（可视为噪声）
而关键帧的选取采用以下公式：
在这里插入图片描述
公式解释：设我们当前的图片是Ii，要比较的关键帧是Ka，fm，fn代表在Ka中与特征fi最相似的特征描述子和第二相似的特征描述子，若满足这个公式的特征描述子的数量大于某一个阈值则丢弃图片Ii。
同理，若将图片Ii与它的上一张图片相比，若满足这个式子的特征描述子小于一个阈值，则丢弃这个图片Ii.