OpenAI机器人手创建自己的训练机制自学解决魔方问题

OpenAI的研究人员开发了一种新方法,可以将复杂的操纵技能从模拟环境转移到物理环境。研发人员已经训练了一对神经网络,可以像人一样的机器人手来解决魔方。使用与OpenAI Five相同的强化学习代码以及称为自动域随机化(ADR)的新技术,对神经网络进行完全的模拟训练。该系统可以处理在训练中从未见过的情况,例如被长颈鹿塞住的行为。这表明强化学习不仅是虚拟任务的工具,而且可以解决需要前所未有的灵活性的物理世界问题。

人类的双手使我们能够解决各种各样的任务。在过去60年的机器人技术中,人类用固定的双手完成的艰巨任务要求为每个任务设计定制的机器人。作为替代方案,人们花了数十年的时间尝试使用通用机器人硬件,但由于其高度的自由度而获得的成功有限。特别是,我们在这里使用的硬件并不是新的-我们使用的机器人手已经存在了15年了-但是软件方法却是。

自2017年5月以来,我们一直在尝试训练类似于人的机器人手来解决Rubik's Cube。我们设定这个目标是因为我们相信成功地训练这样的机器人手来完成复杂的操纵任务将为通用机器人奠定基础。我们于2017年7月在仿真中解决了Rubik's Cube的问题。但截至2018年7月,我们只能在机器人上操作一个块。现在,我们已经达到了最初的目标。

单手解决魔方的任务即使对人类来说也是一项艰巨的任务,并且需要数年的儿童才能熟练掌握它。但是,我们的机器人仍未完善其技术,因为它可以60%的时间解决Rubik's Cube(对于最大难度的 争夺,只有20%的时间)。

当团队引用经过模拟训练的模型时,这意味着什么?麻省理工学院技术评论杂志的 Karen Hao 说,他们建立了机器人的虚拟模型。他们实际上训练它来完成手头的任务。“该算法学习了数字空间的安全性,之后可以移植到物理机器人中。” 现在,成功的关键在于:Ho说:“实验室在每一轮训练中都对模拟条件进行了打乱,以使算法更适应各种可能性。”

他们使用

(1)Shadow Dexterous E系列手作为机器人手,

(2)PhaseSpace运动捕获系统跟踪指尖的笛卡尔坐标

(3)使用三个RGB Basler相机进行视觉姿势估计

我们的方法

我们使用强化学习和Kociemba的算法来选择解决步骤,训练神经网络来解决仿真中的魔方。[1]

我们专注于机器目前难以掌握的问题:感知和灵巧的操纵。因此,我们训练神经网络以实现所需的面部旋转和由Kociemba算法生成的立方体翻转。

域随机化使仅在模拟中训练的网络可以转移到真实的机器人上。

域随机化将神经网络暴露给同一问题的许多不同变体,在这种情况下,是解决魔方的问题。

我们面临的最大挑战是在模拟环境中创建足以捕获现实世界物理特征的环境。对于像Rubik's Cubes或机械手这样复杂的对象,很难测量和建模诸如摩擦,弹性和动力学之类的因素,我们发现仅凭域随机化是不够的。

为了克服这个问题,我们开发了一种称为自动域随机化(ADR)的新方法,该方法不断地在仿真中生成越来越困难的环境。[2]

我们的工作与POET紧密相关,POET自动生成2D环境。但是,我们的工作学习了针对所有环境的联合策略,该策略可以转移到任何新生成的环境。

这使我们摆脱了对真实世界的精确模型的束缚,并使在模拟中学习到的神经网络的转移能够应用于真实世界。

ADR从单一的非随机环境开始,在该环境中,神经网络学习了如何解决Rubik's Cube。随着神经网络在任务中变得更好并达到性能阈值,域随机化的数量会自动增加。由于神经网络现在必须学会将其推广到更随机的环境,因此这使任务更加艰巨。网络不断学习,直到再次超过性能阈值,然后再进行更多随机化,然后重复该过程。

ADR适用于魔方的大小

我们随机化的参数之一是魔方的大小(上图)。ADR从固定大小的魔方开始,然后随着训练的进行逐渐增加随机范围。我们将相同的技术应用于所有其他参数,例如立方体的质量,机器人手指的摩擦力和手的视觉表面材料。因此,神经网络必须学会在所有这些越来越困难的条件下解决魔方。

自动与手动域随机化

测试健壮性

使用ADR,我们能够在仿真中训练神经网络,从而可以在真实的机器人手上解决Rubik's Cube。这是因为ADR使网络暴露于无数种随机模拟中。正是由于培训过程中的这种复杂性,网络才得以从仿真转移到现实世界,因为它必须学会快速识别并适应面对的任何物理世界。

Rubik的Cube原型

为了确定我们的进度并解决问题,我们构建并设计了自定义版本的多维数据集,作为最终解决常规Rubik's Cube的难题。

魔方的原型,从左到右:锁定魔方,面魔方,全魔方,吉克魔方,常规魔方。

展望

用机器人手解决魔方的问题仍然不容易。我们的方法目前在应用需要进行26次面部旋转的最大难度的打乱时,有20%的时间解决了魔方的问题。对于简单的打扰而言,需要15次旋转才能撤消,成功率为60%。

尽管如此,OpenAI并不是要摆脱困难。“我们相信人类的灵巧性正在构建通用机器人的道路上,我们很高兴朝这个方向前进。”

相关论文源码下载地址:关注“图像算法”微信公众号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值