Learning Camera Localization via Dense Scene Matching
论文、代码地址:在公众号「计算机视觉工坊」,后台回复「相机定位」,即可直接下载。
相机定位算法是SLAM或者增强现实的一部分,主要有基于回归和基于结构两种,基于回归的定位算法精度较低,现在比较流行的是基于结构的相机定位算法,基于结构的定位算法有两个阶段:1、建立二维图像与三维场景点之间的对应关系;2、估计相机位姿。对于SLAM来说,相机定位算法属于前端工作,是视觉里程计的一部分,论文结合深度学习的方式对传统前端进行了优化,近几年神经网络与SLAM的结合越来越多,论文提出的算法是对特征匹配的方式进行了改进,通过卷积神经网络对图像进行特征提取,并用CNN进行特征点的匹配操作,很符合当前流行的SLAM趋势。这篇文章中提到的DSM算法主要是对2D和3D场景进行匹配,计算特征点的坐标,再通过计算的坐标,使用PNP+RANSAC算法求解位姿。
【摘要】
求解相机的6D位姿时,传统方法是对图像和预建立的3D模型之间的兴趣点进行提取和匹配,近些年基于学习的算法将场景结构融进特殊的卷积神经网络中,从而能从RGB图像中估计稠密坐标。但大多数算法需要对新场景进行重新训练或重新自适应,而且由于网络容量有限很难处理大规模场景。因此论文提出一种场新的景无关的相机定位算法,该算法使用了稠密场景匹配,在图像和场景间构造一个cost volume。通过一个CNN网络,生成cost volume和对应坐标,从而来估计稠密坐标,然后通过PNP算法求解相机位姿。此外,我们的方法还可以扩展到时域,从而在测试期间获得更好的性能提升。
【引言】
论文重点研究了坐标映射回归算法,近年提出的算法大多需要一个共享的PointNet来单独对每个像素点进行预测,从而使得位姿估计准确性不高且计算量大。为解决这个问题,论文提出一种基于稠密场景匹配的场景无关相机定位网络。通过端到端的训练,cost volume会促使场景点与输入像素有很精确的联系。而场景结构是不规则的ÿ