利用强化学习控制机械臂

最新推荐文章于 2024-04-26 12:10:58 发布

SpengTAN

最新推荐文章于 2024-04-26 12:10:58 发布

阅读量1w

点赞数 3

分类专栏：我的工作

本文链接：https://blog.csdn.net/SpengTAN/article/details/103048736

版权

本文介绍了如何利用强化学习解决机器人环境中的目标定位问题，特别是针对2D机械臂的控制。通过设置奖励函数来最小化手指与目标之间的距离，使用深度确定性策略梯度（DDPG）算法，避免了复杂的逆运动学计算，简化了机器人控制的复杂性。在Python环境中，通过模拟和学习，可以教会机械臂完成精细的动作。

摘要由CSDN通过智能技术生成

机械臂的组成

三个关节和两个链接组成
在这里插入图片描述

Robotics environments

在这篇文章中，我们将抽象化在现实世界中构建机械臂的复杂性。我们将使用一个模拟机器人环境的程序代替实际的硬件。

无论您是在OpenAI还是在Boston Dynamics工作，您都将在模拟机器人环境中开始所有机器人实验。一方面，机器人的制造成本确实很高；另一方面，挥动的机器人手臂可能会伤害您。使用软件开始机器人实验更加安全有效。

我们可以找到各种各样的开放源代码和封闭源代码机器人仿真环境。 Mujoco是您经常在论文中看到的一种流行的模拟环境，3D物理模拟器。不幸的是，Mujoco的非商业许可证。其他选项包括Gazabo或任何游戏引擎(例如Unity或Unreal)。特别是Unity，最近发布了Unity ML代理。

最后，另一个使我们摆脱大型依赖关系的好选择是在Python图形引擎（例如Pyglet）中构建我们自己的简单物理模拟器。如果您的目标是发布强化学习论文或与用户一起构建多平台游戏，那么我不建议您使用此选项。但是，出于我们的目的，构建简单的物理引擎是可行的首选，因为它具有令人难以置信的透明性的优势。这将帮助我们更好地了解机器人引擎的构建方式，从而为我们转向更复杂的事物做好更好的准备。
在这里插入图片描述