CVPR 2021 | 基于稠密场景匹配的相机定位学习

本文提出了一种新的相机定位算法,利用深度学习进行稠密场景匹配,提高了相机位姿估计的精度。通过构建cost volume并用CNN回归稠密坐标,结合RANSAC+PNP算法求解相机位姿,该方法适用于不同场景,且在7Scenes和Cambridge Landmarks数据集上表现出色。
摘要由CSDN通过智能技术生成

Learning Camera Localization via Dense Scene Matching

论文、代码地址:在公众号「计算机视觉工坊」,后台回复「相机定位」,即可直接下载。

相机定位算法是SLAM或者增强现实的一部分,主要有基于回归和基于结构两种,基于回归的定位算法精度较低,现在比较流行的是基于结构的相机定位算法,基于结构的定位算法有两个阶段:1、建立二维图像与三维场景点之间的对应关系;2、估计相机位姿。对于SLAM来说,相机定位算法属于前端工作,是视觉里程计的一部分,论文结合深度学习的方式对传统前端进行了优化,近几年神经网络与SLAM的结合越来越多,论文提出的算法是对特征匹配的方式进行了改进,通过卷积神经网络对图像进行特征提取,并用CNN进行特征点的匹配操作,很符合当前流行的SLAM趋势。这篇文章中提到的DSM算法主要是对2D和3D场景进行匹配,计算特征点的坐标,再通过计算的坐标,使用PNP+RANSAC算法求解位姿。

【摘要】

求解相机的6D位姿时,传统方法是对图像和预建立的3D模型之间的兴趣点进行提取和匹配,近些年基于学习的算法将场景结构融进特殊的卷积神经网络中,从而能从RGB图像中估计稠密坐标。但大多数算法需要对新场景进行重新训练或重新自适应,而且由于网络容量有限很难处理大规模场景。因此论文提出一种场新的景无关的相机定位算法,该算法使用了稠密场景匹配,在图像和场景间构造一个cost volume。通过一个CNN网络,生成cost volume和对应坐标,从而来估计稠密坐标,然后通过PNP算法求解相机位姿。此外,我们的方法还可以扩展到时域,从而在测试期间获得更好的性能提升。

【引言】

论文重点研究了坐标映射回归算法,近年提出的算法大多需要一个共享的PointNet来单独对每个像素点进行预测,从而使得位姿估计准确性不高且计算量大。为解决这个问题,论文提出一种基于稠密场景匹配的场景无关相机定位网络。通过端到端的训练,cost volume会促使场景点与输入像素有很精确的联系。而场景结构是不规则的ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值