Don't Look Back Robust Place Categorization for Place Recognition 基于分类的地点识别算法

本博客仅为作者记笔记之用,不对之处,望见谅,欢迎批评指正。
更多相关博客请查阅:http://blog.csdn.net/weixin_39779106
如需转载,请附上本文链接:http://blog.csdn.net/weixin_39779106/article/details/79490058

原论文链接

一、摘要

摘要

原文摘要
原文摘要翻译
Such navigation capabilities are typically attributed to our semantic visual understanding of the environment [1] beyond geometry to recognizing the types of places we are passing through such as “passing a shop on the left” or “moving through a forested area”. Humans are in effect using place categorization [2] to perform specific place recognition even when the viewpoint is 180 degrees reversed.这种导航能力是典型的基于我们对环境语义层面的理解而形成的,其与基于几何层面的理解不同,是类似于一种对地点类型的识别,例如我们正在经过一处“左边是一个商店”或“前方是一个森林”的地方。基于此,即使是在视角变换180°的情况下,人类同样可以有效的利用地点的类别来对特定的地点进行识别。
In this work, we develop a novel methodology for using the semantics-aware higher-order layers of deep neural networks for recognizing specific places from within a reference database. To further improve the robustness to appearance change, we develop a descriptor normalization scheme that builds on the success of normalization schemes for pure appearance-based techniques such as SeqSLAM [3].本文提出了一种新的利用具有感知语义层面信息的高阶深度学习网络层来对特定地点进行识别的方法。为了进一步提高该方法对外观变化的鲁棒性,我们开发了一种归一化表述子,该表述子是基于成功的纯外观地点识别方法例如SeqSLAM而建立的。

二、介绍

这里写图片描述这里写图片描述

原文摘要
原文摘要翻译
In this paper, we investigate the suitability of semantics-aware higher-order fully-connected layers of deep neural networks, as opposed to viewpoint-dependent middleorder convolutional layers [7], for viewpoint- and condition invariant place recognition. We particularly investigate from the perspective of robustifying semantic place categorization networks for place recognition, in order to retain both the capabilities.与其他利用深度网络中间层的方法不同,本文主要是对深度网络语义层面的更高层进行研究,本文利用语义地点分类网络来提高地点识别的鲁棒性,并同时保持两种性能(视角不变性和鲁棒性)。
Further, we propose to use descriptor normalization to enable appearance-robustness against changing environmental conditions. We also show that the contextual information from the scene, for example, the left and right image regions, can be used to create an extended image descriptor for further improving recognition performance.本文提出利用归一化描述子来使得提出的算法对环境变换具有外观鲁棒性。本文也展示了用于构建描述子的场景中的特定内容。
Finally, we present valuable insights from the PCA analysis of the place descriptors that highlight the importance of spatio-temporal nature of the information inherent within the place recognition problem. The comparative study of neural networks trained on different types of data shows that place-centric semantics aid in recognizing places by inherently ignoring the dynamic object-level information, for example, pedestrians and vehicles on road.最后本文利用主成分分析再次应证了地点识别问题中固有的时空性质信息的重要性。对利用不同类型数据训练的神经网络的比较研究表明,以地点为主的数据集可以提高识别地点性能,因为其可以有效忽略动态对象级信息(例如道路上的行人和车辆)。
详解
  1. 与该组以往工作利用中间层特征不同,这篇论文对深度神经网络的更高层输出进行了研究,利用语义地点分类信息来提高地点识别算法的鲁棒性。
  2. 对不同数据集进行了研究,分析了不同语义信息的数据集对地点识别算法产生的影响。

三、研究背景(略)

四、提出的算法

算法这里写图片描述

原文摘要
原文摘要翻译
A key component of our approach is to use descriptor normalization that immensely improves the robustness of these viewpoint-invariant features to changing environmental conditions, like day versus night. We also propose an extension of these feature representations created by concatenating the descriptors obtained from left and right portions of the images as shown in Fig. 2.描述子归一化是本文所提出方法的重要组成部分之一,它极大增强了这些具有视角不变性的特征在变换环境中的鲁棒性。我们同时通过将图像左右部分的描述子进行串联从而扩展特征的描述能力,如图而所示。
详解

A. 地点描述
1. 使用目前性能最好的CNN-Place365,利用以地点为中心而不是物体为中心的数据集进行训练。
2. 利用高阶全连接层来生成地点的语义描述,最终采用的是fc6层,而不是更高层,因为尽管更高层具有更好的视角不变性,但缺乏对环境外观变化的鲁棒性。

B. 特征归一化
1. 特征归一化在语音识别以及图像回溯问题中已经被很好的验证可以有效的提高距离度量的描述能力。
2. 归一化公式: fi=fiμsσs,i f i ′ = f i − μ s σ s , ∀ i 其中 fi f i 是数据集中的第 i i 幅图像经过fc6层后的描述子,μs σs σ s 分别是数据集所有图像描述子的均值和标准差。
3. μs μ s σs σ s 是可以实时更新的。

C. 序列搜索代价矩阵
1. 代价矩阵是由每幅图像的描述子和参考描述子组成的二维矩阵,采用的是余弦距离。
2. 搜索算法采用的是SeqSLAM中提出的序列搜索,公式为:

Si=minkt=TlTDtk S i = min k ∑ t = T − l T D k t

D.区域裁剪
1. 本文将图像左右两边分开裁剪提取描述子,并分别进行归一化,然后将得到的特征描述子串联,最后得到8192维特征描述子。
2. 测试得到的描述子是左串联右,参考描述子是右串联左,实际上人为已经对正反方向进行了判断。

五、实验

实验设置

实验设置
1. 采用了两个数据集Oxford Robotcar和他们自己在QUT采的数据集。
2. 使用了GPS真值,得到的测试结果与真值相差20米(QUT)40米(Oxford)范围内认为是True Positive。

实验结果

实验1实验2实验3
3. 实验一:Oxford Robtocar,图五:用秋天的后视图与另外四个前视图数据集进行匹配;图六:用秋天的前视图与另外四个前视图数据集进行匹配。
4. 实验二: University Campus,图七:用白天的前后视图与晚上前视图做匹配。
5. 实验三:三个不同数据集训练的AlexNet:1)利用Place365数据集训练;2)利用以Objects为主的IamgeNet数据集训练;3)混合训练;以及4)NetVLAD。结果如图九、图十所示。
6. 结论:本文提出的对fc6层描述子进行扩展后的算法地点识别能力最强。混合训练的网络不见得强,NetVLAD很强,且在加了本文提出的NSD后,所有网络功能明显增强。

六、讨论

A. 主成分分析可视化
主成分分析结果

原文摘要翻译
The CNNs used in this work as well as by other authors are trained for specific tasks like object recognition and place categorization. Therefore, the activations of higherorder layers, capturing the semantic information, are biased towards the semantic category to which the input image is most likely to belong. The normalization using mean and variance in Eq. 1 uniformly biases the descriptors with respect to each of its dimension such that each specific place within a place category can be individually identified.CNN网络一般都是针对特定任务进行训练的,因此,获取语义信息的更高层偏向于输入图像最可能属于的语义类别。归一化利用均值和标准差将描述符相对于其每个维度均匀地偏置,使得地点类别内的每个特定地点可以被单独识别。
The visualization shows that raw descriptors tend to cluster according to their semantic labels, irrespective of the image index, whereas the normalized descriptors tend to form spatio-temporal clusters, despite the absence of any explicit temporal signal during PCA training.图11展示的是Oxford结果归一化前后的2维投影。可视化表明,尽管在主成分分析中没有任何明确的时间信号,但归一化前的描述倾向于根据它们的语义标签进行聚类,而与图像索引无关,而归一化描述符倾向于形成时空聚类。

B. 语义片段中的归一化(即将整个数据集分成多个语义区域再进行归一化,用于证明本文提出归一化的有效性)

C. 序列长度(讨论SeqSLAM的连续序列验证法中不同序列长度对本文提出算法的影响)

六、总结与展望

  1. 未来可以使用语义视觉词汇(BoW)来表示不同地点并且以增量方式执行地点识别。其中预学习视觉词汇表特征的概率归一化是下一步研究的重点。
  2. 可以利用深度学习最后一层构建环境的拓扑在语义层面的时空边界内执行地点识别。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值