Learning Whole-Image Descriptors for Real-time Loop Detection and Kidnap Recovery under Large Viewpoint Difference(沈邵劼)
深度学习用于回环检测
Manohar Kuse1 , Shaojie Shen
本文提出了一个框架,该框架学习整个图像描述符,而不需要人在一个高维子空间中标记来表示场景,用于检测重访在视觉SLAM环境下系统的实时性能和评估。
摘要
本文提出了一个实时立体视觉惯性SLAM系统,能够从复杂的绑架场景和故障中实时恢复。提出了一种基于NetVLAD和解耦卷积的弱监督学习方法分析了标准损耗公式的训练难点,提出了一种allpairloss方法,并通过大量实验验证了其有效性与标准NetVLAD相比,我们的网络计算量和模型参数减少了一个数量级,因此运行速度提高了三倍左右我们用精确召回来评估描述符在标准数据集上的表示能力。与以往仅在fronto并行回访中评估的循环检测方法不同,我们在涉及大视角差异的场景中使用竞争性方法评估我们的方法的性能。最后,我们提出了一个全功能的系统,它具有多世界坐标系统的相对计算和处理能力,能够减少里程漂移,从复杂的绑架场景和随机里程计故障中恢复过来我们开源我们的全功能系统作为流行的VINS融合的附加组件。
贡献
一个功能齐全的系统,作为VINS融合的附加组件,它使用整个图像描述符进行位置表示,并实时从里程计漂移、绑架和故障中恢复。
学习代码2和VINS Fusion附加组件ROS包3是开源的。
•一个新的成本函数,用于处理标准NetVLAD培训中观察到的梯度问题。
•分离卷积代替标准卷积在精确召回的基础上产生相似的性能,但计算成本降低3倍,可学习参数减少5-7倍,使其非常适合于实时环路闭合问题。
•压缩CNN描述符的通道,而不是为了可伸缩性而对图像描述符进行显式降维即使是512-D图像描述符也能提供合理的性能。
方法
网络结构
通过该网络对图像中的关键点进行全面检测
整个图像描述符的符号和计算一张图片被输入CNN,然后是NetVLAD层我们对VGG16进行了实验,并提出使用解耦卷积来提高其速度另外,对于降维,我们提出了信道挤压我们的全卷积网络,K=16产生一个4096维图像描述符(没有信道挤压)和一个512维图像描述符(有信道挤压)就640x480输入图像的浮点运算(FLOPs)数量而言,我们提出的网络大约快25倍,实时计算时间大约快3倍。
结果