论文阅读笔记《Siamese Convolutional Neural Network for Camera Pose Estimation and Visual Servoing》

小样本学习&元学习经典论文整理||持续更新

核心思想

  该文使用基于孪生网络结构的CNN来实现相机的位姿估计和视觉伺服,过程也比较好理解,输入是当前位置的图像和期望位置的图像,输出的是两个图像之间的变换矩阵(包含平移矩阵和由四元数表示的旋转矩阵)。网络的结构如下图所示
在这里插入图片描述
孪生网络的两个分支分别对应当前位置图像 I A I_A IA和期望位置的图像 I B I_B IB,分别提取图像中的特征信息,然后将通道压缩至96,并且展成一维特征向量,再进行拼接。最后经过7个全连接层,输出7个预测结果(平移参数x,y,z和旋转四元数a,b,c,d)。损失函数如下
在这里插入图片描述
在这里插入图片描述
t i t_i ti表示平移参数, q i q_i qi表示旋转参数, R M S RMS RMS表示均方根误差。该文预测的结果其实是两幅图像之间的变换矩阵 T Δ T_{\Delta } TΔ,而不是像传统视觉伺服那样输出对于速度的控制律,因此这里还是需要用其他的控制方法来实现期望的位姿变换。但相对于传统的视觉伺服方法,该文提出的方法能够在初始位置偏差比较大的情况下(如下图第三行,目标只有30%部分在视野中),还能够通过逐步迭代不断接近期望位置,这是传统视觉伺服中很难解决的问题(目标特征点不再视野中无法计算图像雅可比矩阵)
在这里插入图片描述

算法评价

  总体而言该文提出的方法更接近于相机的位姿估计问题,而不是视觉伺服,但本文提出的方法是可以应用于视觉伺服的任务的。另外本文发现使用孪生网络结构分别提取当前位置图象和期望位置图像的特征,再通过级联方式拼接起来,会比直接把两幅输入图像拼接起来进行特征提取效果要更好,这一点是与《Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous》这篇文章中的实验相吻合的。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值