0x00 大纲
本文提出了一种解决单眼视觉测距问题的新框架,称MagicVO。 基于卷积神经网络(CNN)和双向LSTM(Bi-LSTM),MagicVO在摄像机的每个位置输出6-DoF绝对标度姿势,并以一系列连续单目图像作为输入。
MagicVO 是端到端的, 无需相机内参.
CNN得到图片的特征,Bi-LSTM学习前后图片的几何关系,提高预测。
0x01 近期相关工作 & 需要查看的文献资料
-
ORB_SLAM: 机器人的位置算法, 2015 IEEE
-
VINS-Mono: 无人机的VO算法, 2018 IEEE
-
传统几何特征提取:
-
稀疏特征方法(最早2008):
-
最早的VO系统, 2004 IEEE (
D. Nistér, O. Naroditsky, and J. Bergen, “Visual odometry,” Proc. 2004 IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. 2004 CVPR 2004 , vol. 1, no. C, pp. 652 – 659, 2004) -
EKF(4 - 7)
-
vision SLAM [8 - 10]
-
monocular SLAM is realized by particle filter [11-12]
-
PTAM , 2007 ISMAR (技术骨干,后面大都基于这篇)
-
Improving the agility of keyframe - based SLAM, 2008
-
Fast relocalisation and loop closing in keyframe - based SLAM, 2014 IEEE (自适应相关)
-
ORB - SLAM, 单目视觉SLAM, 2015 IEEE (localization, mapping and loop closing)
-
-
直接估计相机的运动基于像素而不是关键点或者描述符:
-
Semi - dense visual odometry for a monocular camera, 2013 IEEE ( 重建semi-dense inverse depth map来计算相机pose)
-
DTAM, 2011
-
SVO, 2014
-
-
-
传统方法的缺点:
稀疏特征方法的缺点:-
计算特征点和描述符的时间长
-
只保留特征点,其他信息可能被丢弃, 通常特征点占据图片信息的少部分
-
相机移动位置不明显
为了改善上述的缺点,洗的研究方法被提出, 基于像素点而不是关键点或者描述符: 直接评估相机的旋转.极大的提高了计算速度
缺点:
- 假定相机移动缓慢
- 假定光照恒定
-
-
基于学习的方法
基于学习的方法不需要特征提取和特征匹配或者复杂的几何计算.
- Learning Visual Odometry with a Convolutional Network, 2015(端到端预测相机速度和位置变换)
- Exploring Representation Learning With CNNs for Frame-to-Frame Ego-Motion Estimation, 2016 IEEE
- Gvnn, 2016
- Recurrent Spatial Transformer Network, 2015
DeepVO
, 2017 IEEE
-
网络主要依靠文献
- FlowNet: Learning Optical Flow with Convolutional Networks,2015 IEEE
0x02 网络相关
-
归一化的目的: reduce the statistical distribution of the samples and to speed up convergence of model;
-
FlowNet 作为CNN部分,预先训练好FlowNet网络;
0x03 实验结果
-
数据集:
-
KITTI Visual Odometry
-
SLAM Evaluation dataset
-
ETH-aslcla dataset
-
0x04 个人总结
-
lstm是一个good idea,结合进去能提高一定的准确率,但是该篇没有源码,需要复现的话重点参考DeepVO的源码;
-
R和T分开测评也是一个不错的idea,但是没有源码;
-
有监督的VO的最新效果是轨迹和GT重合,
但是无监督的VO的最新效果相差无几:
“Pose Graph Optimization for Unsupervised Monocular Visual Odometry” 无源码