基于深度学习的相机重定位方法总结 2020.2.23

基于深度学习的相机重定位方法总结

​ 随着自动驾驶、机器人技术的发展与普及,环境感知、导航决策等技术正逐渐受到工业界和学术界的重视。环境感知是机器人在环境中交互过程中最基础、最关键的环节。为了使机器人在与环境交互过程中能够像人一样使用丰富的先验知识来执行场景实别、自我定位等任务,进而在当前输入信号有限的前提下大大提高其定位与建图的准确性与鲁棒性,机器人必须能够利用以往输入的信息进行推断,结合当前的输入得到准确的相机位姿,即相机重定位技术。相机重定位对于机器理解环境信息、记忆环境信息、检索再利用环境信息有着至关重要的作用。

​ 现有的相机重定位技术主要分为基于传统特征点的方法、基于机器学习的方法和基于深度学习的方法三个流派。其中基于传统特征点的方法通过在关键帧中提取低层级的手工特征点(SIFT、ORB),利用这些特征点进行匹配,得到相机位姿。然而,基于传统特征点的方法所提取的点云特征不够鲁棒,不能捕获全局上下文特征,在环境复杂如少纹理、光照变化大、有遮挡的场景中表现的很差,且计算量大。

​ 基于机器学习的方法有一些已经得到了应用。这些方法基于随机森林实现2D到3D的匹配,通过RANSAC算法恢复出6自由度的相机位姿。在融合了可导的RANSAC以及全卷积网络之后,其鲁棒性得到了进一步的提升。然而,基于机器学习的方法要求在训练时输入深度信息,这对模型的适应性与泛化性是不利的。

​ 基于深度学习的方法主要使用深度神经网络来计算相机位姿。PoseNet使用端到端的训练模型直接预测相机位姿,可以捕获上下文特征,相比sift特征方法更加鲁棒;且速度快,可扩展性强,不需要大型地标数据库。PoseNet2在前作的基础上,引进几何损失函数项,提高了其重定位性能。然而,相比与基于传统特征点的重定位方法,使用深度学习模型直接预测相机位姿的方法由于使用CNN代替了几何技术进行匹配,丢弃了几何信息,其定位精度有所下降。此外,由于本质上CNN学习的是像素点与位姿之间的映射,而位姿是依赖于所选择的坐标系的,因此当不同场景中坐标系不同时,要想CNN直接预测相机的绝对位姿,需要将CNN分场景训练好然后应用到对应的任务中,极大地限制了其应用。

​ 另一种基于深度学习的方法为基于检索的方法。宏观思想是利用CNN对图像进行编码并构建一个图像数据库, 包括目标场景的图像特征及其对应的真实世界位姿。对于给定的检索图像,其首先在数据库中检索最相似的图像,然后对相对位姿变换进行预测。《Camera Relocalization by Computing Pairwise Relative Poses Using Convolutional Neural Network》提出解耦CNN与场景坐标系的依赖关系的思想, 相比于直接预测绝对位姿,其使用孪生CNN预测输入的两幅图像之间的相对位姿。然后通过一系列的相对位姿来计算出绝对位姿。使得 CNN可以从任何场景的图像对中学习 , 能够在多个不相交的场景数据上进行训练和使用,提高了模型对unseen数据的泛化能力。CamNet提出一种由粗到细的策略来逼近最优检索结果,使用一个相对较复杂的神经网络提高了模型的精度。

​ 《Cooperative Holistic Scene Understanding: Unifying 3D Object, Layout, and Camera Pose Estimation》认为场景理解中的各个子任务之间可以互相促进,提出了联合训练、互相促进的思想:根据输入的RGB图像同时解决目标检测、布局检测、相机定位三个任务。其对不同模块的参数化施加约束, 这些约束使联合训练和推理成为可能,进而引出了一系列的“联合损失”。实验表明模块之间联合训练可以显著提高模型的定位性能。

就目前理解了的论文来看,基于深度学习的图像检索方法是当前的主流方法。未来满足实际应用需求的重定位方法需要同时将CNN和几何信息同时纳入考量,充分发挥CNN的高维拟合特性、泛化性、鲁棒性和几何技术的精确性。从前文提到的论文中看,单纯的基于几何技术或者深度学习技术都会遇到一些严重的问题。基于几何技术的方法忽略了局部上下文的语义信息,鲁棒性差。基于深度学习的技术由于忽略了几何约束关系,精度大打折扣。因此,能够在训练时发掘出更多有用的约束条件,将会不同程度的提高模型的性能,而CNN+pipeline的框架结构能够结合二者的优势,获得更高的精度和鲁棒性,应该会成为今后的主流。此外,多模块联合训练能够增加额外的几何约束,非常具有参考性。实时性也是SLAM系统非常重要的一个参数。在所有已读论文中只有一篇提到了能够达到实时性的要求(2.5FPS,《Cooperative Holistic Scene Understanding: Unifying 3D Object, Layout, and Camera Pose Estimation》),对于SLAM系统来讲,实时性是永远都需要讨论的话题,也是需要一直努力的方向。

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值