绝对位姿回归--＞6Dof

最新推荐文章于 2024-05-09 07:58:18 发布

知寒丨

最新推荐文章于 2024-05-09 07:58:18 发布

阅读量591

点赞数

分类专栏：文献阅读文章标签：回归计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43606268/article/details/129166633

版权

文献阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization

结构：使用模型为GoogleNet的一个稍作修改的版本，23层（经计算有可训练参数的层），修改如下

用仿射回归（affine regressors）替换3个softmax分类器：移除softmax分类器，对每个最终全连接层修改以输出表示3维位置和4维方向的7维姿势向量
在特征尺寸为2048的最终回归器之前插入另一个完全连接的层。这是为了形成一个定位特征向量，然后可以进行泛化研究。
将四元数方向向量归一化为单位长度

贡献：

深度CNN在6自由度相机姿态定位的端到端首个应用
通过分类器训练网络做迁移学习，避免训练大量训练数据
训练可以生成姿态不变的输出，保留了足够的姿态信息

VIPR：VIsual-Odometry-aided Pose Regression for 6DoF Camera Location

在PoseNet上进行改进

将Posenet改进为使用三张连续图象为输入，输入对应的三个绝对位姿，作为对真实位姿的逼近
在此基础上使用相对位姿信息辅助预测，得到三个相对位姿
将三个绝对位姿和三个相对位姿连接：然后输入到一个级联LSTM中，最后得到一个精确的绝对位姿预测

模块：

将三个绝对位姿和三个相对位姿连接：然后输入到一个级联LSTM中，最后得到一个精确的绝对位姿预测
APR：绝对位姿估计模块，以三张序列图像为输入，posenet-based
RPR：相对位姿估计模块，以FlowNet2.0提取的光流信息为输入，LSTM -based
PE：位姿估计模块，以APR、RPR的输出为输入，LSTM-based

Back to the Feature: Learning Robust Camera Localization from Pixels to Pose

PixLoc能够做到场景无关的端到端学习位姿，且能够较好地做到跨场景（室外到室内）的相机定位，着重于表征学习，不是让网络学习基本的几何关系亦或编码的3D图，而是让网络能够较好地理解几何原则以及鲁棒地应对外观以及结构变化

图像表征：对于输入的查询图像以及参考图像，利用CNN提取多尺度的特征，可以在第l∈{L,...,1}尺度上得到Dl维的特征，其中l越小尺度越小。

流程：利用已知的3D模型将query图与reference图像直接对齐对位姿进行结算，其中对齐过程中用了一种面向深度特征的非线性优化。

输入：稀疏3D模型（如SfM稀疏模型），粗略的初始位姿(R0,t0)（可以通过图像召回获取）

输出：查询图像对应的相机位姿

贡献：提供了一种场景无关的端到端视觉定位算法，一次模型训练，可用于多个场景的相机定位，精度较高，与目前最优的端到端的相机定位算法精度相当甚至更好

可以对相机位姿进行后处理以精化定位位

> 以上为本人初学阅读后的粗浅总结，若有错误可留言订正，希望能对初学者起到一定帮助

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
绝对位姿回归--＞6Dof

绝对位姿回归部分文章阅读总结
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。