机械臂的组成
三个关节和两个链接组成

Robotics environments
在这篇文章中,我们将抽象化在现实世界中构建机械臂的复杂性。我们将使用一个模拟机器人环境的程序代替实际的硬件。
无论您是在OpenAI还是在Boston Dynamics工作,您都将在模拟机器人环境中开始所有机器人实验。一方面,机器人的制造成本确实很高;另一方面,挥动的机器人手臂可能会伤害您。使用软件开始机器人实验更加安全有效。
我们可以找到各种各样的开放源代码和封闭源代码机器人仿真环境。 Mujoco是您经常在论文中看到的一种流行的模拟环境,3D物理模拟器。不幸的是,Mujoco的非商业许可证。其他选项包括Gazabo或任何游戏引擎(例如Unity或Unreal)。特别是Unity,最近发布了Unity ML代理。
最后,另一个使我们摆脱大型依赖关系的好选择是在Python图形引擎(例如Pyglet)中构建我们自己的简单物理模拟器。如果您的目标是发布强化学习论文或与用户一起构建多平台游戏,那么我不建议您使用此选项。但是,出于我们的目的,构建简单的物理引擎是可行的首选,因为它具有令人难以置信的透明性的优势。这将帮助我们更好地了解机器人引擎的构建方式,从而为我们转向更复杂的事物做好更好的准备。

本文介绍了如何利用强化学习解决机器人环境中的目标定位问题,特别是针对2D机械臂的控制。通过设置奖励函数来最小化手指与目标之间的距离,使用深度确定性策略梯度(DDPG)算法,避免了复杂的逆运动学计算,简化了机器人控制的复杂性。在Python环境中,通过模拟和学习,可以教会机械臂完成精细的动作。
最低0.47元/天 解锁文章
398

被折叠的 条评论
为什么被折叠?



