利用强化学习控制机械臂

本文介绍了如何利用强化学习解决机器人环境中的目标定位问题,特别是针对2D机械臂的控制。通过设置奖励函数来最小化手指与目标之间的距离,使用深度确定性策略梯度(DDPG)算法,避免了复杂的逆运动学计算,简化了机器人控制的复杂性。在Python环境中,通过模拟和学习,可以教会机械臂完成精细的动作。
摘要由CSDN通过智能技术生成

机械臂的组成

三个关节和两个链接组成
在这里插入图片描述

Robotics environments

在这篇文章中,我们将抽象化在现实世界中构建机械臂的复杂性。我们将使用一个模拟机器人环境的程序代替实际的硬件。

无论您是在OpenAI还是在Boston Dynamics工作,您都将在模拟机器人环境中开始所有机器人实验。一方面,机器人的制造成本确实很高;另一方面,挥动的机器人手臂可能会伤害您。使用软件开始机器人实验更加安全有效。

我们可以找到各种各样的开放源代码和封闭源代码机器人仿真环境。 Mujoco是您经常在论文中看到的一种流行的模拟环境,3D物理模拟器。不幸的是,Mujoco的非商业许可证。其他选项包括Gazabo或任何游戏引擎(例如Unity或Unreal)。特别是Unity,最近发布了Unity ML代理。

最后,另一个使我们摆脱大型依赖关系的好选择是在Python图形引擎(例如Pyglet)中构建我们自己的简单物理模拟器。如果您的目标是发布强化学习论文或与用户一起构建多平台游戏,那么我不建议您使用此选项。但是,出于我们的目的,构建简单的物理引擎是可行的首选,因为它具有令人难以置信的透明性的优势。这将帮助我们更好地了解机器人引擎的构建方式,从而为我们转向更复杂的事物做好更好的准备。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值