介绍
视觉位置识别是一个定义明确但极具挑战性的问题:给定一个地方的图像,人类、动物或机器人能否判断这张照片是否是它已经见过的地方?无论是人类、动物、计算机还是机器人,位置识别系统必须具备一些基本的东西。首先,位置识别系统必须具有环境的内部表示(地图),以便与输入的视觉数据进行比较。其次,地点识别系统必须报告当前的视觉信息是否来自地图上已经包含的地方,如果是,是哪个地方。由于一系列挑战,执行视觉位置识别可能很困难。一个地方的外观可能会发生巨大的变化(见图1)。环境中的多个地方可能看起来非常相似,这是一个被称为感知混叠的问题,并且地方可能并不像以前一样从相同的观点和位置重新访问。
视觉是许多定位和位置识别算法的主要传感器。位置识别也是一个不断发展的研究领域,在最近和即将举行的机器人和计算机视觉会议上,包括IEEE机器人与自动化国际会议、IEEE计算机视觉和模式识别会议,引文分析和一些专门的位置识别研讨会证明了这一点。随着汽车自动驾驶系统的兴起,场景识别在自动驾驶系统中更是起到了不可或缺的作用。随着深度学习在计算机视觉领域的崛起,基于深度学习的场景识别也层出不穷,视觉地点识别的最主要挑战是场景的变化(人、车等加入)以及视点变化和不同的照明(夜间、白天)等问题。视觉地点识别技术可以被认为是一种图像检索技术,即对目前所观测到的图像与之前到过地点观测到的图像进行匹配,并由此进行地点的识别和定位。视觉地点识别所面临的两大挑战分别是环境变化和视角变化问题。环境变化问题是指同一地点随光照、昼夜和季节等呈现出识别的问题,而视角变化是指同一地点在不同视角观测下呈现出识别的问题。
接地点识别概念
导航和地点识别在心理学和神经科学领域一直是个重要的问题。认知地图的概念在心理学,神经科学,乃至城市规划等领域有着影响力。Lynch提出认知地图的要素包括路径,边缘,节点,区域和地标。在机器人领域,建立地图的方法受到认知地图其后继者空间语义层级结构的影响。当老鼠在环境中的特定地点时,地点细胞就会活动(参见图2(a)),并且地点细胞群会覆盖整个环境。网格细胞则映射环境中多个位置,从而形成网格。根据地点细胞的触发机制,地点识别由感官线索和自身的运动信息触发。通过老鼠的研究表明,地点细胞最初是基于自身运动触发,但是如果环境发生变化,例如改变起始和终点目标之间的距离,地点细胞将根据外部视觉信息更新地标。
大多数机器人可以获得外部观测数据以及自己的运动信息。地点之间的拓扑和度量关系与感官信息结合使用,从而确定最可能的地点,与地点神经元的机理类似。下图是视觉地点识别系统的示意图。 视觉地点识别系统包含三个关键元素:用于解释视觉数据的图像处理模块,存储机器人对世界知识的图像地图,以及综合传感器数据与地图信息从而做出决定的置信模块。地点识别系统的置信模块也可使用运动信息。此外,大多数位置识别系统被设计为在线操作,因此必须相应地更新地图。
接地点
由于机器人的传感器和执行器的噪声,去建一个精确的地图(a metrically accurate map),并且在里面实现定位是困难的。所以我们采用另一种简单而有效的建图方式——拓扑地图,它用节点代表位置,用edge代表位置之间的可能的路径。机器人导航简化为跟随节点之间的这些边缘,而位置代表了路径之间的关键交叉点或决策点以及期望的最终目标。文献《Visual map making for a mobile robot》出了一种代替的方法是使用“关系图”,而不是单纯地试图将观测值放在二维坐标系中。这种拓扑图的概念类似于生物学概念中的认知地图,使用节点来表示空间中可能的地点,边沿来表示地点间可能存在的路径。机器人导航的问题从而转变为沿着节点间的边缘移动,而地点被定义为关键交叉点或者路径间决策点以及目标点。机器人必须将抽象的路径和地点与物理路径和地点联系起来,并且需要处理传感器,控制,拓扑地图和度量地图之间的复杂关系。另一个问题是机器人该如何生成拓扑地图。如果机器人可以使用周围环境的度量的格图,用它可以提取拓扑信息,得到一些可用于导航的相对信息,例如开放的空间和通道。除此之外,拓扑图也可以从视觉和运动信息中生成。
接地点的定义取决于导航的上下文环境,它可以被定义为一个点,也可以被定义为一个二维区域或三维区域。与机器人的位姿不同,一个palce没有方向,一个依旧存在的挑战是位姿不变性——无论机器人在这个地方的方向如何,都能确保被识别出来。
接地点描述
视觉位置描述主要分为两大类:那些有选择地提取图像中,某些有趣或值得注意的部分(local freture descriptor),以及那些描述整个场景而没有选择阶段的部分(global freture descriptor)。常见的local :SIFT,SURF,FAST…常见的global:HOG,PHOG,Gist等。Local 和 Global 区别 :local需要先检测出角点(特征点/感兴趣的点),而global无需检测这一步,不管图像的内容直接进行操作。
Local Feature Descriptors
尺度不变的特征点选取方法广泛运用于地点识别。一些其他的局部特征识别方法也被用于基于视觉的定位以及地点识别问题。例如,Harris仿射区域方法 SURF, CenSurE的方法。由于选取特征点要基于两步,先提取关键点后并计算描述因子,混合两种不同的方法并不奇怪。比如,Mei,Sibley 等人运用FAST方法选取图中的关键点,然后用SIFT方法去描述。Churchill和Newman用FAST提取并用BRIEF描述。
每张图片可能包含上百个特征点,直接进行暴力匹配是很低效的做法。词袋模型把特征转化为可以比较的词从而提高效率。对于每张图片,每个特征被分配一个特定的词,忽略其几何或空间结构,从而使图片退化为二值字符串或柱状图。词袋模型的缺点:
1. 不能很好的解决“感知偏差”问题,直观特征描述子出现没出现,忽略了场景的几何位置关系。
2. 词袋模型是典型的预先训练的模型,也就是说如果换了一个场景就得重新训练词典。改善:针对这个问题有人提出了在线BOW模型,无需提前训练模型。
词袋模型的优点:可以做到pose invariance
由于词袋模型忽略了地点的几何结构,其得到的地点描述是与位姿无关的,也就是说,机器人该地点的任何位置上都可以进行识别。但是,运用地点的几何信息可以增加算法的鲁棒性,尤其是在环境发生改变时。这些系统可能假设可以运用激光获得3D信息,运用立体视觉,极线约束,或者根据图片内元素的位置来定义场景的几何结构。
Global Descriptors
全局地点描述因子用于在早期的定位系统中,其包括颜色直方图和基于主元素分析的描述因子。Lamon等人综合各种图像特征,例如边,角和颜色,形成了地点的“指纹”。记录0~360度各个方向的特征形成特征序列,从而把地点识别转化为字符串的比较问题。这种系统运用全角度的照相机从而保证每个方向的特征均可记录下来,实现旋转不变。通过预先确定图像中的关键点,全局描述因子可以从局部特征描述因子中生成。Badino 等人对整张图片计算基于SURF的描述因子,这种方法被称为WI-SURF,BRIEFGist 对整张图片计算基于BRIEF的描述因子。Gist是一种很流行的全图的描述因子,他被用于各类地点识别问题。Gist运用Gabor滤波器提取图像信息。对其计算结果取均值从而生产一个描述场景“要点”的向量。
Describing Places Using Local and Global Techniques
局部与全局方法二者各有优缺点:局部特征描述子并不局限于仅定义机器人先前的位姿,而是可以重新组合以创建未被访问过的新位置。例如,Mei, Sibley等人提出,系统通过在landmark co-visibility map中发现单帧实时可见的地标,来进行优于基于标准图像的位置识别。Lynen,Bosse等人则生成二维描述子投票空间,高投票数者为闭环检测候选。局部描述子同样可以将局部特征和度量信息相结合,来优化定位。但全局描述子则不具有这样的灵活性,相比于局部描述子更受回访时机器人姿态改变的影响,因为在其比较方法中假设回访时视角不变。这个问题可以通过使用的circular shifts或联合BOW词袋模型和Gist的方法来改进。虽然全局描述子比局部特征描述子更依赖于姿态,但在光照改变的环境下局部描述子的表现很差,并且在变化情况下局部描述子的表现不及全局描述子。因此在图像分割块上使用全局描述因子或许不失为一种折中的方法,因为足够大的图像片段能表现出整张图片对环境变化的不变性,而足够小的图像片段具有局部特征对于观察姿态的不变性。 McManus, Upcroft等人在图像块上使用全局描述子HOG来获取不随环境条件改变的场景签名;Sünderhauf, Shirazi等人则使用Edge Boxes 物体提取方法联合中层卷积神经网络特征来确定和提取路标。
Including Three-Dimensional Information in Place Descriptions
上述图像处理技术均基于视觉外观,但在度量定位系统中,基于外观的模型必须联合度量信息。尽管许多系统使用其他传感器,例如[激光以及RGB-D相机,几何信息也可以借由传统的相机通过机器人位置的计算获得。运用立体相机可以获得尺度信息,单目摄像机也可以利用Structure-from-Motion算法推断出度量信息,方法包括MonoSLAM, PTAM,DTAM ,LSD-SLAM以及ORB-SLAM 。度量信息可以是稀疏的:来源于特征点,比如MonoSLAM的图像块,Lowe的SIFT,FrameSLAM的CenSurE以及ORB-SLAM的ORB。度量信息也可以是稠密的:来源于像素点,DTAM存储了所有像素的稠密度量信息,LSD-SLAM也保存了包含结构和信息的半稠密的深度数据。稠密的度量数据使得机器人具有避障和度量规划以及建图和定位的功能,因此可以执行全自动视觉导航。RGB-D相机等新型传感器能够提供稠密的深度信息以及图像数据,从而极大地促进了稠密地图的发展。这些传感器还可以获得三维的目标信息从而辅助场景识别。SLAM++存储了一个三维物体模型数据库,并在导航期间执行物体识别,将其作为高级地点特征。与低级的地点特征比,这种做法不仅能提供丰富的语义信息,并且减少了内存需求。
地图模块
对于位置识别或导航任务,系统需要参考地图与当前观察结果进行比较。地图框架根据可用的数据和正在执行的位置识别类型而有所不同。下表显示了映射方法的分类,这取决于地图中的物理抽象级别以及地点描述中是否包含度量信息。列出的最具体的映射框架是拓扑-度量或地形地图。虽然可以制作全球公制地图,但这样的地图只适用于小的地理区域,并且存在将地形图融合到全球公制地图中的机制。因此,对于位置识别的目的,任何全局度量地图都可以被认为是一个单节点的地形测量地图。
Mapping Frameworks For Visual Place Recognition | ||
---|---|---|
Level of map abstraction | Place description type | Comments |
Pure image retrieval | Appearance-based | No position information |
Topological | Appearance-based | Includes transition information |
Topological-metric | Appearance-based | Includes metric information between but not within places |
Topological-metric | Sparse metric information (landmark maps) | SLAM system – includes metric information between and within places |
Topological-metric | Dense metric information (occupancy grid maps) | SLAM system – includes metric information between and within places |
Pure Image Retrieval
位置识别的最抽象形式的映射框架是只存储环境中每个位置的外观信息,而不存储相关的位置信息。纯图像检索假设匹配仅基于外观相似性,并应用计算机视觉中的图像检索技术,而不是特定于基于位置的信息。虽然由于不包括相对位置信息而丢失了有价值的信息,但是可以利用计算效率高的索引技术。位置识别的一个关键问题是系统的可扩展性 —— 随着机器人访问越来越多的地方,存储需求将会增加,搜索效率将会降低。因此,地图的设计需要确保大规模的效率。如果使用词袋模型量化描述符空间,则可以使用倒排索引加速图像检索;图像ID号是根据图像中出现的单词存储的,而不是根据图像ID存储的单词。倒排索引允许更快地消除不太可能的图像,而不是要求对数据库中的所有图像进行线性搜索。
如果只使用每个图像中最具信息量的特征,则位置识别性能会得到改善,其中信息增益是使用条件熵计算来测量的。Li和Kosecka也观察到使用简化的特征集改进的位置识别。FAB-MAP 2.0还使用带有单词袋模型的倒排索引来演示沿1000公里路径的视觉位置识别。虽然Schindler等人使用投票方案来匹配位置,但在应用倒索引方法之前,包括负面观察(图像中没有出现的单词)和积极观察的FAB-MAPs概率模型需要简化。通过在位置级和词汇级使用分层搜索,还可以提高位置识别的效率。Mohan等人使用并发特征矩阵选择了最可能的环境。预先选择全局环境的子集减少了搜索空间,从而提高了位置识别过程的效率。
Topological Maps
纯拓扑图包含有关地点相对位置的信息,但不存储有关这些地点如何相关的度量信息。拓扑信息既可以增加正确位置匹配的数量,也可以过滤掉不正确的匹配。像FAB-MAP这样的概率系统可以作为一个纯粹的图像检索过程运行,它在所有步骤中都会假设一个统一的位置,但当通过贝叶斯过滤或类似技术包含转换信息时,性能会得到改善。虽然图像检索技术可以使用倒排索引来提高效率,但拓扑图可以在加速匹配之前使用位置。也就是说,位置识别系统只需要搜索已知靠近机器人当前位置的位置。基于采样的方法可用于对可能的位置进行采样。粒子根据最有可能的位置重新采样,如果定位良好,粒子可以留在机器人当前位置附近,如果机器人丢失,粒子可以分散到整个环境中。因此,计算时间与粒子的数量成正比,而不是与环境的大小成正比。或者,由于环境中闭环的数量自然稀疏,Latif等人使用拓扑信息将位置识别表述为一个稀疏凸 L1 -最小化问题,并应用高效同伦方法提供闭环假设。在识别过程中添加拓扑信息允许使用低分辨率数据进行位置识别,从而降低内存要求。使用稀疏凸L1最小化公式,使用小至48像素的图像实现了成功的位置识别。即使在具有挑战性的场景中,图像被模糊或在不同的环境条件下观察,例如在一天中的不同时间,拓扑信息的使用也允许视觉位置识别,每个图像使用32个4位像素。
Topological-metric Maps
由于可以通过添加拓扑信息来增强图像检索,可以通过在地图边缘上包含度量信息(距离、方向或两者)来增强拓扑图。例如,FAB-MAP和SeqSLAM最初都是纯粹的拓扑系统,但通过CAT-SLAM和SMART分别添加里程信息已被证明可以提高每个系统的位置识别性能。这些拓扑度量地图可以是基于外观的,在这种情况下,度量信息仅作为每个地点节点之间的相对姿态包含。然而,关于一个地方的地标或物体位置的度量信息也可以存储在每个节点中。拓扑位置节点内的度量信息可以存储为稀疏地标图,如果从图像数据中提取深度信息,则可以存储为密集占用网格图。尽管使用截断符号距离函数表示的密集空间建模的概念可以追溯到Moravec和Elfes在20世纪80年代中期的工作,但随着GPU技术的出现,它在过去几年中才变得可行。
Belief模块生成
位置识别系统的最终目的是确定一个位置以前是否见过。因此,任何位置识别系统的中心目标都是协调视觉输入与存储的地图数据,以生成信念分布。这种分布提供了当前视觉输入与机器人的世界地图表示中的特定位置相匹配的可能性或置信度。如果两个地方的描述相似,那么它们在同一物理位置被捕获的可能性就更大,但这种情况在多大程度上是正确的,取决于特定的环境。例如,重复的环境可能表现出感知混叠,其中不同的地方是无法区分的。相反,不断变化的环境可能会导致同一地点在不同时间出现截然不同的景象。
视觉位置识别在改变的环境
早期的位置识别系统通常隐含地使用一个简化的假设,即每个位置的视觉外观在实验过程中不会改变。然而,随着机器人系统在越来越大的不受控制的环境中运行,时间越来越长,这种假设很快就变得不成立了。因此,近年来,人们越来越关注创建持久的机器人导航系统,包括持久的位置识别技术。在动态环境中定位和生成地图的能力被认为是至关重要的。
描述图像在改变的环境
一个地方的外观会随着时间的推移而发生很大的变化,原因有很多,包括光照和天气的变化。面对外观变化时,有两种方法可以进行位置识别:
第一种方法试(Invariant Methods:)图找到条件不变的描述在这个地方,局部特征描述符被设计成比例不变、旋转不变和光照不变。
第二种方法(Learning Methods)试图了解外观变化是如何发生的。
Invariant Methods
利用传统的局部特征在不断变化的环境中匹配位置困难是机器人持久导航的一个重要问题。由于外观的变化,特别是光线的变化,SURF特征的不可重复性是视觉教学和重复实验失败的主要原因。对现有的图像描述方法进行了测试,以确定它们对光照和其他变化的鲁棒性。在光照、云层覆盖和季节条件的变化中测试了SIFT特征和许多SURF变体。SURF变体的性能都优于SIFT,但没有一种测试特征在所有条件下都具有鲁棒性。在后来的发展中,将最成功的SURF变体U-SURF与使用极极约束的一致性检查相结合,并在小型(40张图像)数据集中实现了80%至100%的正确匹配。研究结果表明,U-SIFT描述子的光照不变性最好。
阴影去除和使用光照不变颜色空间等技术可以减轻由光照变化引起的外观可变性的影响。另外,可以使用基于硬件的解决方案在可变照明条件下进行位置识别。使用扫描激光测距仪创建不受场景照明影响的“类似相机”的图像。这种解决方案的优点是适用于完全黑暗的环境。长波红外热成像相机是另一种传感器,它可以以类似于标准相机的方式部署,但对光照变化的响应不同。当可见光相机在夜间失效时,热成像仪可以提供更好的位置识别。利用CNN特征作为整体图像描述符,分析了不同层对视觉外观和视点变化的鲁棒性。得出的结论是,中级特征对外观变化表现出鲁棒性,而高级特征对视点变化的鲁棒性更强,并且携带更多可用于划分搜索空间的语义信息。在不断变化的环境中,尚未对位置识别的视觉数据进行深入研究的一个方面是颜色。传统的图像描述符(如SURF和BRIEF)对灰度图像进行操作,而大多数可用的相机捕获彩色图像,这有可能在不断变化的环境中提供关于位置识别的新的和有趣的信息。在不断变化的环境中,颜色信息对位置识别提出了一个有趣的悖论:当场景照明变化时,颜色信息作为一种特征表现不佳,但相反,相对颜色信息包含有关照明的信息,可以通过识别和去除阴影来显著提高位置识别。光照不变图像使用相对颜色信息,在白天更可靠地用于位置识别,但在夜间,当违反关于黑体照明的基本假设时,彩色图像的表现要好。
Learning Methods
不变量方法的替代方法是学习地点在不同时间出现之间的关系。这些方法假设地点在整个环境中以类似的方式改变外观,因此,在训练期间学习的变化可以推广到以前未见过的位置。通过观察来自不同地点的静态网络摄像头对这一假设进行了验证,并证明不同地点的最显著变化在时间上是相似的。此外,可以使用位置的训练集来计算主成分基,该基以很小的精度损失对新位置进行编码。Ranganathan等人将描述符空间(如SIFT描述符)细分为1600多万个单词。然后系统学习这些单词的概率分布。精细词汇表的动机是观察到描述符由于光照变化、视角变化和其他影响而以高度非线性的方式变换,并且学习替代词的分布允许这些变化被学习和量化。分布是通过在同一环境下的多次训练运行来学习的,并在不同的光照条件下匹配特征来生成概率分布。与使用传统词汇树相比,性能得到了提高,另外10-15%的数据集被正确匹配。
使用网络摄像头镜头跟踪不同光照条件下的图像补丁,生成大量的正面和负面示例。从这些数据中,神经网络学习技术将这些斑块映射到一个新的空间中,在这个空间中,根据欧几里得距离,正匹配靠近,负匹配远离。与SIFT和SURF描述符相比,映射描述符在位置识别方面更为成功——与SURF描述符相比,另外10%的测试位置被正确匹配。使用SLIC超像素对两个不同季节的训练图像进行分割。使用颜色直方图和SURF描述符描述超像素,并学习了从一个季节到另一个季节的超像素翻译字典。同样,Lowry等人学习了从上午捕获的图像到下午晚些时候捕获的图像的线性变换。然而,为了使这种外观翻译成功,训练图像对必须很好地对齐。基于学习的方法通常需要一个有监督的训练阶段,这意味着可能的外观变化是已知的,并且相关的训练数据是可用的。Lowry等人提出了一种无监督学习方法用于变化环境下的位置识别。该系统识别并删除了在整个环境中广泛存在的每个观察结果的各个方面。去除常见的元素减少了广泛的位置识别失败的风险,并增加了位置描述的稳定性。
变换的环境中回忆图像
如果环境发生变化,则映射也需要进行更改以继续表示环境。系统必须决定记住什么,忘记什么。对于系统来说,维护一个位置的多个表示也可能是有益的,因为位置可以在不同的配置之间变化。位置识别的映射框架以以下两种方式中的一种处理不断变化的环境——要么决定记住什么,忘记什么,要么记住多个不同的表示。这些系统并不都是特定于基于视觉的系统,许多系统被设计用于处理激光数据,但展示了与任何传感器模式或地图框架相关的概念。
Remembering and Forgetting Data
在动态环境中,当机器人获得新的观测值时,每个位置表示都必须更新。必须在利用最近的观察来覆盖过时的信息和不允许稍纵即逝的事件覆盖现状之间找到平衡。然而,很难确定哪些事件是短暂的,哪些是值得记住的。Biber和Duckett从神经科学的概念中获得灵感,将其称为“稳定性-可塑性困境”。生物大脑可以激发出应对这种困境的解决方案;人类记忆模型中发现的感觉记忆、短期记忆和长期记忆等概念已被用来创建记忆和遗忘的决策模型。一种受生物学启发的映射系统通过模拟感觉记忆将传感器信息传递到短期记忆和长期记忆存储区域。
在第一阶段,选择性注意机制根据来自长期记忆的信息,决定哪些信息将从感觉记忆升级为短期记忆。
第二阶段包括使用预演机制来确定哪些信息将从短期记忆转移到长期记忆。
使用注意力和预演机制可以确保记住更持久、稳定和频繁出现的特征,而暂时的特征则被遗忘。在考虑将元素提升到更高的内存级别之前,必须经常看到和识别这些元素。此外,过时的特征被慢慢地从长期记忆中过滤掉。还有一个互补的问题,即应该记住哪些元素,它通常使用与遗忘过程相似的标准。
Multiple Representations of the Environment
不仅地方的外观会随着时间的推移而变化,而且它们也可能以一种循环的方式变化,这种方式无法用单一的描述来表示。在实验中。与其不断地记忆和遗忘信息,地图应该包含该区域的多个表示——无论是在一个地方级别还是在整个地图级别。位置识别系统可以使用同一环境的多张地图。每张地图都编码了不同的时间尺度。其中一些地图代表了短期记忆,并且经常更新,而另一些地图类似于长期记忆,并且在几个小时、几天或几周内不会更新。保持以不同的时间尺度更新的地图,确保旧的地图数据不会被环境中的临时变化立即覆盖。相反,静态元素随着时间的推移而得到加强,而瞬态事件则被过滤掉。通过选择最适合当前传感器数据的局部地图进行位置识别。
维护同一环境的多个地图的系统也可能只在必要时添加新的地图配置,而不是根据预先设定的时间框架。此外,并非每个地方都需要多种表现形式——某些区域,如门口,可能比其他环境表现出更多的变化。观察到动态活动的每个区域在一个子图中从地图的其余部分分割出来。采用模糊k-均值聚类和贝叶斯信息准则确定该区域典型构型的最优数量。使用子映射来隔离动态区域允许在必要时进行多种环境配置,同时保持映射的可管理性。当机器人观察到场景中正在移动的元素时,它们必须被检测出来,也可能被移除。然而,通常存在一些不明显移动的半静态元素,它们会随着时间的推移而出现和消失。虽然这些元素可以被认为不可靠而被简单地移除,但也有可能这些元素在环境的特定部分暂时有用。以停车场建筑为例,其中墙壁等静态元素可能较远,没有特色,而半静态停放的车辆较多,相对有特色,可以用于定位几个小时或一天,然后被遗忘。如果是这种情况,当机器人观察结果与提供的静态地图的预期结果不匹配时,将创建临时地图。当临时地图不能充分匹配机器人在多个连续时间步上的观察结果时,临时地图将被丢弃。
Recognizing Places in Changing Environments
将外观变化集成到位置识别系统中需要对Belief生成过程进行一些关键的更改。首先,不断变化的环境需要对每个地方进行多种表示。如果是这种情况,系统可能会根据其当前传感器数据选择最佳地图,或者可能会尝试预测最可能的外观匹配。或者,位置识别系统可以并行运行多个假设。为每个保存的经验分配了自己的定位器,该定位器报告机器人是否在该环境中成功定位。系统不是选择与当前传感器数据最匹配的单个地图,而是主动跟踪多个地图中的N个最佳导航假设,同时保留未决假设,并在活跃假设低于最佳未决假设时进行交换。在室内办公室实验中,使用多个地图假设可将平均路径误差降低多达80%。
在不断变化的环境中,位置识别的一个因素是拓扑信息变得更加重要,因为传入的传感器数据变得不那么可靠,并且更难与先前的观测相匹配。匹配图像序列不是单个图像总体上可以提高位置识别,特别是在不断变化的环境中。在不断变化的环境中,系统不只是经过一个特定的地方,而是穿过环境中相同或非常相似的路径。SeqSLAM使用图像序列在特别具有视觉挑战性的环境中执行位置识别。Naseer等人通过将图像匹配制定为最小成本流程来利用序列信息。流网络是具有源节点和汇聚节点的有向图,对于基于路径的位置识别,它们分别表示遍历的开始和结束。通过将图像比较值等同于流量成本,该公式通过环境找到最优序列。通过允许节点匹配或隐藏来处理不同的速度剖面。同样,Hansen和Browning使用隐马尔可夫模型使用Viterbi算法确定通过环境的最可能路径。
总结
最成功的对抗外观变化的方法通常是:以视点不变性或增加训练需求为代价的。当传感器信息变得不那么可靠时,它可以由拓扑信息来补偿,拓扑信息不仅要求单点的视点不变性,但这条路可能很长。一些可能的方法包括使用图像补丁而不是整幅图像,因为图像补丁具有整幅图像的条件不变的优点,同时允许一些的视点不变性,并探讨了深度学习特征的使用,这些特征也具有一定的视点不变性。视觉位置识别得益于其他领域的研究,特别是计算机视觉在深度学习、图像分类、对象识别、视频描述等领域取得的巨大进步。
位置识别的研究也可以从正在进行的目标检测和场景分类的研究中受益。通过目标检测,我们可以了解到,诸如建筑物之类的目标对于长期的位置识别是有用的,诸如行人之类的目标应该被忽略,诸如汽车之类的目标根据语义和时间上下文可能是有用的。通过利用有关哪些对象是动态的或静态的以及这些属性如何依赖于时间和语义上下文的知识,可以增强对结构更改的健壮性。通过专门针对位置识别任务的训练或微调,利用卷积神经网络的表达性,是未来值得研究的方向。
视觉位置识别系统也可以利用上下文。虽然地方在外观上变化很大,但相对位置保持不变。通过使用位置先验、递归滤波和基于路径的图像序列,将这一事实集成到信念生成模块中,并且随着环境视觉外观变化的增加,对这些技术的依赖性也随之增加。语义场景上下文可以进一步将位置识别的搜索空间限制为语义相似的场景,从而保证面向长期自治的可扩展性。语义语境可以支持场景变化的学习和预测,增强对环境条件变化的鲁棒性。语义映射也有减少内存需求的潜力