CVPR 2021 | 基于稠密场景匹配的相机定位学习

最新推荐文章于 2024-05-19 13:12:17 发布

Tom Hardy

最新推荐文章于 2024-05-19 13:12:17 发布

阅读量484

点赞数

文章标签：算法计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_29462849/article/details/118160926

版权

本文提出了一种新的相机定位算法，利用深度学习进行稠密场景匹配，提高了相机位姿估计的精度。通过构建cost volume并用CNN回归稠密坐标，结合RANSAC+PNP算法求解相机位姿，该方法适用于不同场景，且在7Scenes和Cambridge Landmarks数据集上表现出色。

摘要由CSDN通过智能技术生成

Learning Camera Localization via Dense Scene Matching

论文、代码地址：在公众号「计算机视觉工坊」，后台回复「相机定位」，即可直接下载。

相机定位算法是SLAM或者增强现实的一部分，主要有基于回归和基于结构两种，基于回归的定位算法精度较低，现在比较流行的是基于结构的相机定位算法，基于结构的定位算法有两个阶段：1、建立二维图像与三维场景点之间的对应关系；2、估计相机位姿。对于SLAM来说，相机定位算法属于前端工作，是视觉里程计的一部分，论文结合深度学习的方式对传统前端进行了优化，近几年神经网络与SLAM的结合越来越多，论文提出的算法是对特征匹配的方式进行了改进，通过卷积神经网络对图像进行特征提取，并用CNN进行特征点的匹配操作，很符合当前流行的SLAM趋势。这篇文章中提到的DSM算法主要是对2D和3D场景进行匹配，计算特征点的坐标，再通过计算的坐标，使用PNP+RANSAC算法求解位姿。

【摘要】

求解相机的6D位姿时，传统方法是对图像和预建立的3D模型之间的兴趣点进行提取和匹配，近些年基于学习的算法将场景结构融进特殊的卷积神经网络中，从而能从RGB图像中估计稠密坐标。但大多数算法需要对新场景进行重新训练或重新自适应，而且由于网络容量有限很难处理大规模场景。因此论文提出一种场新的景无关的相机定位算法，该算法使用了稠密场景匹配，在图像和场景间构造一个cost volume。通过一个CNN网络，生成cost volume和对应坐标，从而来估计稠密坐标，然后通过PNP算法求解相机位姿。此外，我们的方法还可以扩展到时域，从而在测试期间获得更好的性能提升。

【引言】

论文重点研究了坐标映射回归算法，近年提出的算法大多需要一个共享的PointNet来单独对每个像素点进行预测，从而使得位姿估计准确性不高且计算量大。为解决这个问题，论文提出一种基于稠密场景匹配的场景无关相机定位网络。通过端到端的训练，cost volume会促使场景点与输入像素有很精确的联系。而场景结构是不规则的ÿ