论文阅读笔记《Quickly Inserting Pegs into Uncertain Holes using Multi-view Images and Deep Network Trained》

本文链接：https://blog.csdn.net/qq_36104364/article/details/114637522

核心思想

该文提出一种使用基于学习的视觉伺服方法实现插轴入孔（Peg-in-hole）操作的方法，整个操作可以分成三个阶段：第一阶段通过视觉伺服方法引导机械手靠近洞口，第二阶段通过螺旋搜索的方法使轴与孔对齐，第三阶段使用阻抗控制把轴插入孔中，该过程如下图所示
在这里插入图片描述
该文主要介绍了第一阶段基于学习的视觉伺服过程。在机械手的两侧安装了两个摄像头，用于观察小孔与轴之间的相对位置，摄像头的安装位置及采集图像过程如下图所示

两侧相机分别捕捉到机械手两侧的图像，并且将其中手爪附近160 * 80像素的区域分割出来（如图b中的蓝色框），将相机2中分割出的图像经过翻转再与相机1分割出的图像进行拼接，得到最终的160 * 160像素的图像（如图d所示），图中白色的圆形表示轴所在的位置，黑色的圆形表示孔所在位置。将图像输入到一个训练好的VGG网络中，输出孔的中心与轴的中心之间的相对坐标 $(x, y)$ 。在得到相对坐标 $(x, y)$ 之后，并不是直接控制机械臂运动到孔的位置，而是通过符号函数（sgn）把相对坐标变成相对位置，分别是“左上”，“左下”，“右下”，“右上”，如下图所示
在这里插入图片描述
然后控制机械臂按照一定的步长逐步移动到小孔的附近，每次移动之后都会重新输出相对位置，移动过程如下

式中， $x_h[t]$ 表示 $t$ 时刻，轴（机械手）所在的位置， $x [t]$ 表示 $t$ 时刻网络输出的相对位置， $\lambda[t]$ 表示 $t$ 时刻的移动步长，移动步长是一个随时间 $t$ 变化的参数
在这里插入图片描述
式中， $A$ 表示最大相对移动距离， $n$ 表示最大移动步数。根据上式在开始移动时移动步长较大，随着轴逐渐向孔接近，移动步长也呈线性下降。
当轴移动到孔的附近之后，进入螺旋搜索的阶段，借助力-力矩传感器来对齐轴与孔。螺旋搜索类似与盲人用手摸索的过程，因为轴的一端是顶在平面上运动的，当轴和孔对齐时，沿轴方向的力会变小。而所谓的螺旋搜索就是以轴通过第一阶段视觉伺服移动的最终位置为起点，以阿基米德螺旋线的路径不断运动，直至轴与孔对齐。
在这里插入图片描述
螺旋线的方程如下

该文还介绍了如何利用合成数据对网络进行训练。因为该文的应用场景是在复杂的背景中寻找到小孔位置，因此作者在拼接图的基础上，融合其他的图片及增加高斯模糊的方式构成复杂背景来对网络进行训练，融合的形式如下
在这里插入图片描述