论文阅读笔记《Siamese Convolutional Neural Network for Camera Pose Estimation and Visual Servoing》

最新推荐文章于 2022-05-29 01:16:38 发布

深视

最新推荐文章于 2022-05-29 01:16:38 发布

阅读量560

点赞数

分类专栏：论文阅读笔记 # 视觉伺服文章标签：视觉伺服深度学习孪生网络相机位姿估计

本文链接：https://blog.csdn.net/qq_36104364/article/details/112170687

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 142 订阅

订阅专栏

视觉伺服

35 篇文章 21 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

该文使用基于孪生网络结构的CNN来实现相机的位姿估计和视觉伺服，过程也比较好理解，输入是当前位置的图像和期望位置的图像，输出的是两个图像之间的变换矩阵（包含平移矩阵和由四元数表示的旋转矩阵）。网络的结构如下图所示
在这里插入图片描述
孪生网络的两个分支分别对应当前位置图像 $I_A$ 和期望位置的图像 $I_B$ ，分别提取图像中的特征信息，然后将通道压缩至96，并且展成一维特征向量，再进行拼接。最后经过7个全连接层，输出7个预测结果（平移参数x,y,z和旋转四元数a,b,c,d）。损失函数如下
在这里插入图片描述

$t_i$ 表示平移参数， $q_i$ 表示旋转参数， $R M S$ 表示均方根误差。该文预测的结果其实是两幅图像之间的变换矩阵 $T_{\Delta }$ ，而不是像传统视觉伺服那样输出对于速度的控制律，因此这里还是需要用其他的控制方法来实现期望的位姿变换。但相对于传统的视觉伺服方法，该文提出的方法能够在初始位置偏差比较大的情况下（如下图第三行，目标只有30%部分在视野中），还能够通过逐步迭代不断接近期望位置，这是传统视觉伺服中很难解决的问题（目标特征点不再视野中无法计算图像雅可比矩阵）
在这里插入图片描述

算法评价

总体而言该文提出的方法更接近于相机的位姿估计问题，而不是视觉伺服，但本文提出的方法是可以应用于视觉伺服的任务的。另外本文发现使用孪生网络结构分别提取当前位置图象和期望位置图像的特征，再通过级联方式拼接起来，会比直接把两幅输入图像拼接起来进行特征提取效果要更好，这一点是与《Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous》这篇文章中的实验相吻合的。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述