视觉伺服的个人理解

最新推荐文章于 2025-04-09 10:50:40 发布

深视

最新推荐文章于 2025-04-09 10:50:40 发布

阅读量6.1k

点赞数 15

分类专栏：视觉伺服学习笔记文章标签：视觉伺服

本文链接：https://blog.csdn.net/qq_36104364/article/details/110139114

版权

视觉伺服学习笔记专栏收录该内容

28 篇文章

订阅专栏

视觉伺服就是在已知系统（机器人）的期望状态 $s^*$ 的条件下，通过控制系统（机器人）的运动使得系统（机器人）的实际状态 $s$ 与期望状态之间的误差 $e=s-s^*$ 小于固定的阈值，与传统的开环控制方法（已知初始状态和期望状态，规划好控制策略后直接执行，中间过程中不再调整）不同，视觉伺服是通过多次迭代的方式逐步缩小误差 $e$ ，也就是在执行过程中根据当前状态与期望状态之间的差异，不断更新控制策略。
机器人的实际运行状态 $s = [m (t), a]$ 是一个与图像测量值 $m (t)$ 和系统参数 $a$ 有关的函数，视觉伺服的设计主要就是在于 $s$ 的设计。经典的视觉伺服方法可以分为基于图像的视觉伺服控制（IBVS）和基于位置的视觉伺服控制（PBV
S），IBVS中 $s$ 由表示图像特征的变量构成，PBVS 中 $s$ 由表示相机姿态的变量构成。
我们以eye in hand （也就是相机安装在机械臂上，相机状态和机械臂终端的状态相同）的IBVS为例，假设 $s^*$ 是恒定的，如我们希望让一个特征点处于图像中心，如下图
在这里插入图片描述
而当前的状态 $s$ 特征点处于偏离了图像中心，如下图

$s$ 的变化只与相机的运动有关，所以我们通过控制相机的运动，使得相机的状态 $s$ 变成期望状态 $s^*$ 。
确定了 $s$ 的构成方式之后，就是要设计控制方案了，最简单的控制方案就是速度控制，通过改变速度 $v=(v_c,w_c)$ ， $v_c$ 表示线速度， $w_c$ 表示角速度，那么 $s$ 关于时间的导数和速度之间的关系可以表示为 $\dot{s}=L_sv$ $L_s$ 称为图像雅可比矩阵，也称交互矩阵
误差 $e$ 关于时间的导数和速度之间的关系为 $\dot{e}=L_ev$ ，因为 $e=s-s^*$ ，且 $s^*$ 是与时间无关的常值，所以 $L_e=L_s$ ，如果希望误差 $e$ 呈指数函数下降，也就是误差 $e$ 的导数与它自身相关，即 $\dot{e}=-\lambda e$ ，则 $v=-\lambda L_e^+e$ ， $L_e^+$ 表示 $L_e$ 的广义逆矩阵。实际情况中不能得到 $L_e^+$ 或者 $L_e$ 的准确值，只能对其进行近似和估计，用 $\hat{L_e^+}$ 表示 $L_e^+$ 的近似，则对于速度的控制方案可以表示为 $v=-\lambda \hat{L_e^+}e=-\lambda \hat{L_e^+}(s-s^*)$
假设特征点在相机坐标系中的坐标为 $X = (X, Y, Z)$ ，图像物理坐标系中的坐标为 $(x, y)$ ，像素坐标系中的坐标为 $(u, v)$ ，则可以得到以下关系
在这里插入图片描述
计算上式关于时间的导数可得

特征点的速度和相机的速度之间满足以下对应关系

结合上面的式子可得

即

则图像雅可比矩阵 $L_x$ 可以表示为

如果要控制一个6自由度的机械臂，就需要要求 $\hat{L_e^+}$ 的秩大于等于6，而一个特征点只能之多提供秩为2的雅可比矩阵，因此需要至少3个特征点，才能满足控制要求。而且雅可比矩阵中的 $Z$ 通常是未知的，需要通过估计的方式来获取。而视觉伺服的过程就是按照一定的时间间隔，不断根据当前状态估计 $\hat{L_e^+}$ ，计算出当前状态下的速度，然后在完成本次运动后再次根据更新后的状态估计 $\hat{L_e^+}$ ，计算下一个时间间隔内的速度，最终使得当前状态与期望状态之间的误差小于一定的阈值。