Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry阅读笔记_deep globalrelative networks for end-to-end 6-dof -CSDN博客

本文链接：https://blog.csdn.net/hfutyfl802/article/details/103125250

文章是在《Deep Auxiliary Learning for Visual Localization and Odometry》这篇文章的基础上改进的，目前这篇文章还没看，先把他的改进版看了，总是感觉怪怪的。
进入正题，Deep Global-Relative Networks for End-to-End 6-DoF Visual Localization and Odometry这篇文章是云智科技和北航的杰作。文章的出发点是尽管深度学习在VO领域的应用已经很广泛，但是在长时间的机器人导航过程中，他们仍然不能解决漂移问题（drift problem），针对这个问题，作者在Valada的文章的基础上进行了改进。作者认为相对子网络主要是为了平滑VO路线，而设计全局子网络可以解决漂移问题。基于此，作者提出Cross Transformation Constraints（CTC）和Mean Square Error (MSE)来训练网络。
Introduction部分就不写了，写本文的创新点：
1>,通过连接提取特征的CNN网络和回归相对及全居位姿RCNN类型的子网络和全连接网络（Fully-connected fusion layers (FCFL)）来得到全局和相对位姿。
2>，在训练策略方面，先用一系列RGB图片训练CNN和相对位姿估计网络，之后再用不同场景的图片把整个网络一起训练。
3>，作者设计了两种不同的损失函数来提高网络的准确度。为了训练相对位姿子网络，用CTC来训练达到局部调整的目的，文章中作者说，这个损失函数类似于 Local Bundle Adjustment in traditional vSLAM system，或者 windowed optimization，可以理解为局部调整或者局部优化，小范围的回环检测。之后用CTC和MSE来训练整个网络。
4>,就是在两个数据集上进行评价，证明了本文所提网络的效果为state-of-the-art。
文章所提的网络具体是什么样子，一看图便知，包括子网络在这里插入图片描述
具体介绍下，CNN1为ResNet-50S的前四部分，作为特征提取网络。而子网络RCNN1是ResNet-50S的第5部分接着两个LSTM，其作用是计算相对位姿，LSTM的结构和DeepVO里的结构一致。RCNN2网络的输入为CNN1的输出，而RCNN1的输入为相邻两幅图片的CNNN1输出。而混合全连接网络就是混合相对和全局网络来提升网络的准确度。
接下来看一下作者提出的损失函数，文中用了一小节来讲解。
首先，假设有有五张连续的图片， F = (I 0 ,I 1 ,I 2 ,I 3 ,I 4 ),P i =
(Q i ,T i ) is a 6-DoF predicted pose，就是位姿变换矩阵，五张图片之间的变换关系有 [P 01 ,P 12 ,P 23 ,P 34 ,P 02 ,P 24 ,P 04 ]，其中，P01代表图片从0到1的变换矩阵，其他的以此类推。理论上，预测的变换矩阵等于实际的变换矩阵，如下式，
在这里插入图片描述
其中，戴帽子的P0（数学公式不会敲）为机器人所在真实位置。所以，误差就会产生，

计算使用的是均方误差，整合起来就是

上式称为相对损失函数，N为具体的样本数量，联合全局损失函数，可写为
在这里插入图片描述
作者就是利用这个损失函数来训练网络，使局部的几个样本的位置转换误差最小，从而减小漂移。
在训练策略方面，先用一些列图片训练CNN1和RCNN1，损失函数为相对损失函数。之后在训练RCNN2，利用不同的场景来训练。
作者利用 7-Scenes（室内）和KITTI（室外）来训练和评价本文所提的网络，训练集和测试集的划分依照原始的划分原则。评价时所提到的L-VO3网络暂时还没看到所以就暂时不提。最终实验结果如下图，
在这里插入图片描述
可以看到，本文所提的网络整体效果都要优于DeepVO和L-VO3，但是在累计误差方面要略逊于L-VO3，作者的解释为缺乏相对应的数据导致网络的训练不够。
最后作者还进行了消融学习，比较了CNN加RCNN1和CNN加RCNN2,最终结果显示不如复合的好。作者还验证了所选的序列长度，及计算相对误差时的连续图片数量。