OpenAI机器人手创建自己的训练机制自学解决魔方问题

最新推荐文章于 2025-03-18 14:10:58 发布

仪器之家

最新推荐文章于 2025-03-18 14:10:58 发布

阅读量812

点赞数

分类专栏：图像算法文章标签：机械手魔方图像算法 OpenAI xu

本文链接：https://blog.csdn.net/hahabeibei123456789/article/details/102677675

版权

图像算法专栏收录该内容

154 篇文章

订阅专栏

OpenAI的研究人员开发了一种新方法，可以将复杂的操纵技能从模拟环境转移到物理环境。研发人员已经训练了一对神经网络，可以像人一样的机器人手来解决魔方。使用与OpenAI Five相同的强化学习代码以及称为自动域随机化（ADR）的新技术，对神经网络进行完全的模拟训练。该系统可以处理在训练中从未见过的情况，例如被长颈鹿塞住的行为。这表明强化学习不仅是虚拟任务的工具，而且可以解决需要前所未有的灵活性的物理世界问题。

人类的双手使我们能够解决各种各样的任务。在过去60年的机器人技术中，人类用固定的双手完成的艰巨任务要求为每个任务设计定制的机器人。作为替代方案，人们花了数十年的时间尝试使用通用机器人硬件，但由于其高度的自由度而获得的成功有限。特别是，我们在这里使用的硬件并不是新的-我们使用的机器人手已经存在了15年了-但是软件方法却是。

自2017年5月以来，我们一直在尝试训练类似于人的机器人手来解决Rubik's Cube。我们设定这个目标是因为我们相信成功地训练这样的机器人手来完成复杂的操纵任务将为通用机器人奠定基础。我们于2017年7月在仿真中解决了Rubik's Cube的问题。但截至2018年7月，我们只能在机器人上操作一个块。现在，我们已经达到了最初的目标。

单手解决魔方的任务即使对人类来说也是一项艰巨的任务，并且需要数年的儿童才能熟练掌握它。但是，我们的机器人仍未完善其技术，因为它可以60％的时间解决Rubik's Cube（对于最大难度的争夺，只有20％的时间）。

当团队引用经过模拟训练的模型时，这意味着什么？麻省理工学院技术评论杂志的 Karen Hao 说，他们建立了机器人的虚拟模型。他们实际上训练它来完成手头的任务。“该算法学习了数字空间的安全性，之后可以移植到物理机器人中。” 现在，成功的关键在于：Ho说：“实验室在每一轮训练中都对模拟条件进行了打乱，以使算法更适应各种可能性。”

他们使用

（1）Shadow Dexterous E系列手作为机器人手，

（2）PhaseSpace运动捕获系统跟踪指尖的笛卡尔坐标

（3）使用三个RGB Basler相机进行视觉姿势估计

我们的方法

我们使用强化学习和Kociemba的算法来选择解决步骤，训练神经网络来解决仿真中的魔方。[1]

我们专注于机器目前难以掌握的问题：感知和灵巧的操纵。因此，我们训练神经网络以实现所需的面部旋转和由Kociemba算法生成的立方体翻转。

域随机化使仅在模拟中训练的网络可以转移到真实的机器人上。

域随机化将神经网络暴露给同一问题的许多不同变体，在这种情况下，是解决魔方的问题。

我们面临的最大挑战是在模拟环境中创建足以捕获现实世界物理特征的环境。对于像Rubik's Cubes或机械手这样复杂的对象，很难测量和建模诸如摩擦，弹性和动力学之类的因素，我们发现仅凭域随机化是不够的。

为了克服这个问题，我们开发了一种称为自动域随机化（ADR）的新方法，该方法不断地在仿真中生成越来越困难的环境。[2]

我们的工作与POET紧密相关，POET自动生成2D环境。但是，我们的工作学习了针对所有环境的联合策略，该策略可以转移到任何新生成的环境。

这使我们摆脱了对真实世界的精确模型的束缚，并使在模拟中学习到的神经网络的转移能够应用于真实世界。

ADR从单一的非随机环境开始，在该环境中，神经网络学习了如何解决Rubik's Cube。随着神经网络在任务中变得更好并达到性能阈值，域随机化的数量会自动增加。由于神经网络现在必须学会将其推广到更随机的环境，因此这使任务更加艰巨。网络不断学习，直到再次超过性能阈值，然后再进行更多随机化，然后重复该过程。

ADR适用于魔方的大小