【论文笔记】Learning Multi-view Camera Relocalization with Graph Neural Networks(CVPR2020)

目的是为了定位的时候的解决奇异性,目前有很多解决的方法是使用LSTM网络记录之前的query数据,但是由于LSTM所可表达记录的信息有限,因此本文提出一种gnn的方式。
 
收到slam和三维重建的启发,使用类似pose graph的方式表示网络,这样即使时间上相对较远的帧也可以提供相互关系
 
为了表示不同帧直接的相互作用,使用cnn表示feature,gnn表示不同feature之间的相互作用关系(融合)
 
整体思路如下:
    
输入的是一些image(可以不用知道relative pose,可以是时间上跨度比较大的image,也可以是类似slam相近的image)(构成graph)
输出 的是这些image 对应的pose(构成graph)
 
文章使用了cnn和gnn的融合。
 
3.1. Graph Definition(定义节点以及边,目标是学习从image的graph到pose graph的过程)
    
    对比结构:
      a显示的是lstm这样的网络一般都是链接的相邻关系,而本文的初始节点使用的是dense的链接,然后使用相思性度量取topk的相似度的所有的节点进行连接: ,x代表每个节点的feature,也就是image 的整体feature,cs是cose值
 
 
3.2. Message Passing(指的是怎样在节点之间feature进行传播以及相互作用)
定义: ,表示feature x i(也就是image I)到x j之间的相互作用message
为了防止某些权重失衡,在每个channel上作用了一个权重 ,k表示feature的chennal,每个channel都有一个比例因子。
 
最终节点i的message表示为所有相邻的节点的message之和求平均
然后和本节点的feature融合得到最终本节点的feature
 
3.3 Multi-level Graph Modeling
文中使用了multi gnn的方法,在feature的1,2,3,4层分别使用上述网络进行迭代,得到最终的graph feature,然后gap+fc得到pose
 
loss:
第一项是6D-pose的误差,第二项是相连的变的relative pose的误差
 
实验结果:
             
 
 
 
 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值