【强化学习与机器人控制论文 1】基于深度强化学习的机械臂避障

ReEchooo

已于 2022-02-24 09:31:58 修改

阅读量7.3k

点赞数 7

分类专栏：强化学习与机器人控制论文解读文章标签：算法人工智能机器学习

于 2021-10-30 20:19:42 首次发布

本文链接：https://blog.csdn.net/qq_41773233/article/details/120924459

版权

强化学习与机器人控制论文解读专栏收录该内容

4 篇文章

订阅专栏

本文探讨了一篇2018年的论文，该论文将深度强化学习（DRL）应用于机器人避障，特别是使用NAF算法。在物理人机交互的背景下，文章介绍了如何定义状态空间、动作空间和奖励函数来实现动态避障。尽管论文缺乏创新，但其奖励函数的设计是关键点，包括末端执行器与目标、动作幅度和障碍物距离的考虑。实验在四种不同场景中验证了算法，展示了DRL在解决复杂避障问题上的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 引言

本文介绍一篇2018年发表在 European Control Conference 的文章，虽然不是顶会（看完文章后发现，确实没啥创新的地方），但是和自己的研究方向比较相关，目前被引量为28。
在这里插入图片描述

论文传送门：
Deep Reinforcement Learning for Collision Avoidance
of Robotic Manipulators

论文的主要工作就是首次将NAF用在机器人避障中。（我感觉这不算什么亮点…，虽然作者在文章中还强调了“首次”）

2. 论文解读

2.1 背景

在物理人机交互中，避障问题是最重要的问题，而典型的实时避障方法由三部分组成：环境感知、避障算法、机器人控制。本文使用深度强化学习（Deep Reinforcement Learning）的方法在虚拟环境中解决动态障碍物（不可预测其运动轨迹）躲避问题，以此来免去机器人建模的麻烦。

具体而言，本文就是采用NAF实现机器人的动态避障。（关于NAF的介绍，可以参考：【强化学习论文解读 1】 NAF）

2.2 将NAF算法用在机器人避障中

文中介绍了NAF算法的基本原理，这里略去。主要看对于机器人如何定义状态空间。动作空间、还有奖励函数。

在这里插入图片描述

状态空间的物理量有：关节位置 $q$ ，关节速度 $\dot{q}$ ，目标位置 $p_{\mathrm{t}}$ ，末端执行器位置 $p_{\mathrm{e}}$ ，障碍物位置 $p_{0}$ ，障碍物速度 $\dot{p}_{0}$ 。文中还解释道：关节速度可以通过关节位置的微分得到，或者基于滑膜的微分器得到；末端执行器的位置通过世界相机得到；障碍物的速度和关节速度采用相同方式得到。（不过vrep好像可以直接拿到物体的运动速度和位置）