文献:龙霄潇,程新景,朱昊,张朋举,刘浩敏,李俊,郑林涛,胡庆拥,刘浩,曹汛,杨睿刚,吴毅红,章国锋,刘烨斌,徐凯,郭裕兰,陈宝权.三维视觉前沿进展[J].中国图象图形学报,2021,26(06):1389-1428. 大场景下的视觉定位阅读笔记
国际研究现状:大场景下的视觉定位
大场景下的视觉定位大致可以分为端到端的视觉定位和非端到端的视觉定位。 非端到端的视觉定位方法也就是传统的视觉定位方法,包括检测和描述关键点、建立 2D-3D 匹配和利用 RANSAC( random sample consensus) + PNP( perspective N points)估计位姿等步骤。 端到端的视觉定位方法则利用神经网络来实现视觉定位框架中的所有模块。
端到端的视觉定位方法
基于3D坐标回归的方法
- DSAC
- 先利用神经网络预测图像中的2D 点所对应的 3D 坐标,这样就得到了 2D-3D 匹配,并且,受强化学习理论的启发,他们提出了可导形式的 RANSAC,称之为 DSAC,这样,传统的视觉定位框架中所有的模块都可以用神经网络端到端地实现。
- DSAC++
- 提出了一种基于熵控制的内点计数方法来对假设模型进行打分,大大提高了 DSAC 的泛化性能。之后,受启发于集成学习的理论, Brachmann 和 Rother(2019)将 DSAC 集成到多专家模型中,在合成和真实的定位数据集都取得了不错的结果。
基于位姿回归的方法
在给定一组训练图像及其对应的位姿后,其通过训练卷积神经网络直接从输入图像回归相机的位姿。
- PoseNet
- 基于GoogleNet搭建了第1个端到端的6DoF(six degrees of freedom)相机定位方法,之后有很多的其他方法是基于PoseNet的改进。
- MapNet
- 其利用两幅图像间的相对位姿和每幅训练图像的绝对位姿来进行端到端的定位。
- 将注意力机制应用到全局位姿回归网络中,在室内外数据集上都取得了更加优越的性能。
- 深入研究了基于位姿回归的方法,发现基于位姿回归的图像定位更类似于图像检索,而不是基于2D-3D匹配的精准定位。