论文阅读笔记《Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous》

最新推荐文章于 2022-09-19 10:30:00 发布

深视

最新推荐文章于 2022-09-19 10:30:00 发布

阅读量725

点赞数 2

分类专栏：论文阅读笔记 # 视觉伺服文章标签：视觉伺服深度学习机器人抓取

本文链接：https://blog.csdn.net/qq_36104364/article/details/111915978

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 142 订阅

订阅专栏

视觉伺服

35 篇文章 21 订阅

订阅专栏

核心思想

该文提出一种基于深度学习的视觉伺服方法和抓取检测方法，视觉伺服部分还是利用卷积神经网络取代了图像雅可比矩阵的计算过程，输入当前图像和期望位置图像，输出动作控制律，然后再利用机器人内部的控制器实现速度的控制。随着迭代过程不断更新当前图像，并利用另一个神经网络来预测抓取的位置和方向，当机械臂位置到达期望位置后，控制机械爪完成抓取动作。整个控制流程如下图所示，这里只介绍视觉伺服部分，抓取部分暂不介绍
在这里插入图片描述
为了实现速度的预测，作者设计了四种网络结构来实现视觉伺服的过程

模型一就是简单的将当前图像和期望图像级联输入CNN中，经过卷积层和全连接层输出6个自由度对应的速度预测值。

模型二采用类似于多任务网络的结构，前三层的卷积层与模型一相同，作为一个公共的编码器，而对于位置和方向两部分参数分别用两个解码器来进行预测，解码器部分的结构相同，是由一个卷积层和两个全连接层构成的。根据后面的实验结果，模型二的效果是最好的。
在这里插入图片描述
模型三和模型四的结构是一样的，都是用两个并行的孪生网络结构分别对当前图像和期望图像进行处理，然后结合起来在经过卷积和全连接层得到预测结果。不同的是在结合的方式上，模型三采用级联的方式，模型四采用互相关的方式（类似光流估计中常用的操作）。
训练使用的数据集是利用一个机械臂实际采集的，采集内容是不同位置下拍摄的图像和对应的机械臂齐次变换矩阵，根据当前位置的变换矩阵 $^oH_c$ 和期望位置的变换矩阵 $^oH_d$ ，就可以计算得到从当前位置到期望位置的变换矩阵 $^dH_{c}$
在这里插入图片描述
利用基于位置的视觉伺服方法可以由变换矩阵中的旋转矩阵和平移矩阵解算出速度控制律，来作为ground truth

$R$ 表示旋转矩阵， $r_{ij}$ 表示旋转矩阵的第 $i$ 行第 $j$ 列， $t$ 表示平移矩阵。采用均方差损失函数对网络进行训练
在这里插入图片描述

算法评价

该文还是比较系统的对基于视觉伺服的机器人抓取过程做了详细介绍，仅用一个RGB的图像输入就完成了抓取位置预测，视觉伺服控制机械臂运动，执行抓取等一系列的动作。与基于强化学习的抓取过程不同，利用深度学习和视觉伺服来进行控制律的预测能够更好的适应环境的变化，从仿真环境迁移到现实场景也更加容易。
如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述