【论文笔记】视觉重定位场景坐标回归 Efficient multi-output scene coordinate prediction 2020

最新推荐文章于 2024-06-09 08:00:00 发布

phy12321

最新推荐文章于 2024-06-09 08:00:00 发布

阅读量1k

点赞数 1

分类专栏：相机重定位

本文链接：https://blog.csdn.net/phy12321/article/details/108002041

版权

相机重定位专栏收录该内容

37 篇文章

订阅专栏

Efficient multi-output scene coordinate prediction for fast and accurate camera relocalization from a single RGB image

巴黎中央理工

这是一篇混合方法，使用重新设计的CNN网络提取patches的特征，

然后输入到回归森林对patches的中心点像素坐标进行预测，得到多个3D坐标，选择置信度最高的一个作为预测，由此得到2D-3D对应关系。

最后根据Pnp和RANSAC求解相机位姿

在这里插入图片描述

论文方法

1.patch选择和对应标签制作

使用patch可以过滤掉与场景无关的位置（天空、墙壁等），去除噪声可以减少RANSAC的工作量进而加快运行速度。

本文只取以SURF特征点为中心的49X49的区域作为patch输入。

对应中心点的3D坐标标签计算：（使用RGBD信息，D为深度，p为图像二维坐标，k为相机内参）
$相机坐标系下坐标：P_{i}^{c}=D_{i} K^{-1}\left[\begin{array}{c}p_{i} \\1\end{array}\right]$

$使用已知相机位姿转换到世界坐标系：\left[\begin{array}{c}P_{i}^{w} \\1\end{array}\right]=\left[\begin{array}{c|c}R & t \\0 & 1\end{array}\right]\left[\begin{array}{c}P_{i}^{c} \\1\end{array}\right]$

得到训练标签。

2.patch特征提取网络xyzNet

xyzNet和后面的回归森林是分开训练的，单独训练流程图：

在这里插入图片描述

在后面加了两个FC层用于输出位姿预测。

损失函数是绝对位姿误差：
$l(p)=\sum_{p_{i} \in p}\left\|P_{i}^{w}-\hat{P}_{i}^{w}\right\|_{2}^{2}$

3.多输出深度回归森林

论文使用回归森法融合xyzNet的输出特征

在这里插入图片描述

每个回归树中的每个节点都以全部特征向量为输入，来训练回归森林

对于每个回归树，选择一个特征子集S作为输入，分裂节点i将其分类到左子树和右子树，直到到达叶子节点：
$h\left(f_{j}, \theta_{i}\right)=\left\{\begin{array}{ll}0, & \text { if } d\left(r e f_{i}, f_{j}\right)<\tau_{i}, \text { go to left child node } \\1, & \text { if } d\left(r e f_{i}, f_{j}\right) \geqslant \tau_{i}, \text { otherwise }\end{array}\right.$

其中fi为特征向量， $\theta_{i}=d\left(r e f_{i}, f_{j}\right)$ 为节点参数。

优化目标为最小化叶子节点的特征方差：
$\begin{array}{l}Q\left(S_{i}, \theta_{i}\right)=\sum_{d \in\{L, R\}} \frac{\left|S_{i}^{d}\left(\theta_{i}\right)\right|}{\left|S_{i}\right|} V\left(S_{i}^{d}\left(\theta_{i}\right)\right) \\\text { with } V(S)=\frac{1}{|S|} \sum_{m \in S}\|m-\bar{m}\|_{2}^{2}\end{array}$

为了使回归树尽可能平衡，减少树的深度，需要自适应的改变节点参数，因此作者设计为可学习的参数形式，其损失函数：
$\theta_{i}=\left\{\operatorname{ref}_{i}, \tau_{i}|| S_{i}^{L}|=| S_{i}^{R} \mid\right\}$
最终每个叶节点的输出可以根据其置信度来选择出最有可能的3D坐标预测，得到2D-3D对应关系