【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记

最新推荐文章于 2025-01-09 22:08:57 发布

phy12321

最新推荐文章于 2025-01-09 22:08:57 发布

阅读量1.5k

点赞数

分类专栏：相机重定位

本文链接：https://blog.csdn.net/phy12321/article/details/107992158

版权

相机重定位专栏收录该内容

37 篇文章

订阅专栏

GRNet: Learning Multi-view Camera Relocalization with Graph Neural Networks

驭势科技, 北京大学机器感知重点实验室, 北京长城航空测控技术研究所

本文提出了一种使用多视角图像进行相机重定位的图神经网络。
该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的 序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM只是一种GNN的特殊情况。
为了让GNN能适应于重定位任务，作者重新设计了节点、边、嵌入函数，使用CNN和GNN分别用于特征提取和知识传播。
设计了一个通用的基于图的损失函数，超越了原来的连续视角约束，引入了多视角约束

为什么使用GNN呢？因为GNN可以处理非结构性输入。LSTM和视觉里程计可以提供前后相邻帧的时间一致性约束，且LSTM并不能保持长时间的记忆。而GNN可以提供不连续多视角帧之间的时间一致约束。在这里插入图片描述

整体框架：

在这里插入图片描述

论文方法

1.重新设计GNN

节点：是一个3维的张量，每个节点 $v_i$ 的特征 $x_i \in R^{H×W×C}$
边初始化：初始化的时候连接所有的节点对，不放过任何可能的两个节点之间连接，后期会有边池化操作简化计算量

这一步相比于LSTM的相邻节点相连具有优越性。

2.信息传播

在这里插入图片描述

首先使用CNN生成要从xi传播到xj的消息：
$m_{j→i}=f_m(x_i,x_j)$
这里的fm是两层CNN，将xi和xj连接后输入fm得到传播消息
进行消息选择，其实就是计算边权重对边加权：
$a_{j→i}=f_{atten}(x_i,x_j)\\其中f_{atten}是逐通道计算的余弦相似度cs：\\a^{(k)}_{j→i}=σ(cs(vec(x^{(k)}_i),vec(x^{(k)}_j)))\\\sigma 为归一化到01$
信息融合：即连接到x_i的所有边的加权平均：
$m^{agg}_i=\frac1{N_i}\sum_{e_{ij}\in \epsilon}a_{j→i}⊗m_{j→i}\\ ⊗表示逐通道相乘$
计算好融合的信息后，就是将节点v_i的特征x_i更新为其值了
$x'_i=f_u(x_i,m^{agg}_i)\\其中f_u为更新函数，实际上是CNN和f_m相同但是参数不共享$

3.多层动态更新

多层更新引入了边池化机制，去除冗余连接。

在这里插入图片描述

多层图神经网络：

使用ResNet34的四个模块 $f_c^l \ (l=1,2,3,4)$ 对节点进行更新：
$V^l=f^l_c(V^{l−1})$
使用图神经网络 $f_g^l$ 对边进行更新：
$KaTeX parse error: Undefined control sequence: \ at position 14: V^l_{fused},\̲ ̲epsilon ^l=f^l_…$
自适应边池化：

只保留余弦相似度最高的前k个节点之间的连接：
$c_{j→i}=cs(maxpool(x_i), maxpool(x_j))$
位姿估计：

使用全局平均池化（GAP）对每层GNN的输出进行池化（融合各层特征输出），然后逐通道连接，通过两个全连接网络进行位置和姿态的估计。

4.GNN损失函数

模型的输出包含预测的位姿以及位姿之间的连接（边），因此损失函数包含两项
$L=\frac1{N_v}\sum_{v_i\in V_{pose}}d(ζ_i,\hat ζ_i)+\frac1{Ne}\sum_{e_{ij}\in E_{pose}}d(ω_{ij},\hat ω_{ij})\\第一项是绝对位姿损失，第二项是有连接的节点之间的相对位姿损失。\\d(ζ_i,\hat ζ_i)=||t_i−\hat t_i||_1*e^{−β_p}+β_p+||r_i−\hat r_i||_1*e^{−\gamma p}+\gamma p$