论文阅读笔记《Training Deep Neural Networks for Visual Servoing》

文章介绍基于深度学习的视觉伺服算法,从视觉伺服到直接视觉伺服,再到基于CNN的视觉伺服,通过最小化图像差异找最优位姿。利用神经网络学习完成优化,输入图像输出变换矩阵,用PBVS求速度控制律,确定了该算法范式,后续多在此基础改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核心思想

  该文应该是基于深度学习的视觉伺服算法中比较经典的一篇文章了,基本奠定了基于深度学习的视觉伺服算法的雏形。文章首先介绍了从视觉伺服(VS)到直接视觉伺服(DVS)的变化过程,其实就是将视觉伺服从一个利用几何关系和动力学关系求解控制律的过程,过渡到一个优化问题,通过最小化期望位置图像和当前位置图像之间的差异,来寻找最优的期望位姿。
在这里插入图片描述
  而进一步发展到基于深度学习(CNN)的视觉伺服,就是利用一个神经网络,通过学习的方式来完成上述的优化过程,网络的输入是当前位置的图像和参考位置图像,输出则是两幅图像位姿之间的变换矩阵
在这里插入图片描述
Δ r 0 \Delta r_0 Δr0就表示变换矩阵 c 0 T c ^{c_0}T_c c0Tc
  对于视觉伺服任务而言,要求得当前位置到期望位置的变换矩阵 Δ ∗ r \Delta ^*r Δr也非常简单
在这里插入图片描述
这里不理解为什么非要用一个参考图像过渡一下,直接计算期望位置图像和当前位置图像之间的变换矩阵不好吗?网络的目标函数也很简单
在这里插入图片描述

在求得变换矩阵之后利用经典的PBVS算法就可求得速度控制律了,且这个过程是全局渐近稳定的,即无论是怎样的初始位姿和期望位姿,整个系统都会收敛。
在这里插入图片描述
文中还介绍了网络的训练和数据集生成的过程,这里不再赘述了。

算法评价

  这篇文章最重要的贡献在于确定了一种基于深度学习的视觉伺服范式,输入当前位置图像和期望位置图像,输出两个图像之间的位姿变换矩阵,利用PBVS求解控制律。后面很多文章基本都是在其基础上进行改进,但并没有跳出这个框架。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值