机器人健身房:一个设计和训练智能软机器人的系统

来源:中国数字科技馆

  如果你想制造出世界上最好的爬楼梯机器人,你需要同时对机器人的大脑和身体进行优化,也许是通过给它安装一些高科技的腿和脚,再加上一个强大的算法来实现攀爬。

  尽管身体和大脑的设计(即“控制”)是让机器人移动的关键因素,但现有的基准环境只支持后者。协同优化这两个元素是很困难的——即使没有设计元素,也需要花费大量时间训练机器人模拟来做各种不同的事情。

  麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家们旨在通过设计“进化健身房”来填补这一空白,这是一个大规模的测试系统,用于协同优化软机器人的设计和控制,从自然和进化过程中获得灵感。

  模拟器中的机器人看起来有点粗糙,像可移动的俄罗斯方块,由网格上柔软和刚性的执行器“单元”组成,用于行走、攀爬、操纵物体、变形和密集地形的导航任务。为了测试机器人的能力,该团队结合设计优化的标准方法和深度强化学习(RL)技术,开发了自己的协同设计算法。

  协同设计算法的功能有点像一个能力耦合,其中设计优化方法进化机器人的身体,而RL算法则为拟议的设计优化了一个控制器(连接到机器人以控制运动的计算机系统)。设计优化会询问“设计表现如何?”控制优化会给出一个分数,比如“行走”的5分。

  结果就像一场小型机器人奥运会。除了行走和跳跃等标准任务外,研究人员还包括一些独特的任务,如攀爬、翻转、平衡和爬楼梯。

  在30多个不同的环境中,机器人能够圆满完成简单的任务,如行走或搬运物品,但在更困难的任务,如抓住和举起物品,它们就做不到,这显示出当前协同设计算法的局限性。例如,有时优化后的机器人在许多任务中表现出“令人沮丧的”明显的非优化行为。例如,“捕手”机器人经常会向前俯冲去抓住落在它后面的障碍物。

  尽管机器人的设计从零开始自主进化,并且没有事先得到共同设计算法的知识,但在向更多的进化过程迈进的过程中,它们往往成长为类似于现有的自然生物,同时胜过手工设计的机器人。

  “通过‘进化健身房’,我们的目标是推动机器学习和人工智能的算法的边界。”麻省理工学院本科生Jagdeep Bhatia说,他是该项目的首席研究员。“通过创建一个注重速度和简单性的大规模基准测试,我们不仅创造了一种在强化学习和协同设计领域内交流想法和结果的共同语言,而且能使没有最先进计算资源的研究人员能够为这些领域的算法发展作出贡献。我们希望,这项工作能使我们离拥有像你我一样智能的机器人的未来更近一步。”

  在某些情况下,如果机器人要像人类一样学习,尝试和犯错可以让它们理解任务的最佳表现是什么,这就是强化学习背后的思想。在这里,机器人通过获得一些有助于它的信息,如“看到”木块的位置,以及附近的地形是什么样的,来学习如何完成一项任务,如推木块。然后,机器人得到一些衡量它做得如何的标准(即“奖励”)。机器人越是推开木块,奖励就越高。机器人必须同时平衡探索(也许问自己“我可以通过跳跃来增加我的奖励吗?”)和行动(进一步探索增加奖励的行为)。

  这些算法为不同设计提出的不同“细胞”组合非常有效:其中一个进化得像一匹奔跑的马,拥有像腿一样的结构,模仿自然界中发现的东西;攀爬机器人进化出了两条手臂和两条类似腿的结构(有点像猴子)来帮助它攀爬;搬运机器人就像一个两指夹持器。

  未来研究的一个途径是所谓的“形态发展”,即机器人在解决更复杂任务时获得经验,从而逐渐变得更智能。例如,你可以先优化一个简单的机器人,让它能走路,然后再用同样的设计,优化它能负重,然后再爬楼梯。随着时间的推移,机器人的身体和大脑会“变形”,与一开始就直接接受相同任务训练的机器人相比,它们可以解决更具有挑战性的任务。

  佛蒙特大学机器人学教授乔希·邦加德说:“人工智能领域越来越意识到,在支持智能行为方面,身体和大脑是平等的伙伴。”“要弄清楚这种合作关系可以采取什么形式,还有很多事情要做。‘进化健身房健’可能是解决这类问题的一个重要工具。”

  “进化健身房”是开源软件,可以免费使用,因为研究人员希望他们的工作激发协同设计中新的和改进的算法。

  巴蒂亚与麻省理工学院本科生霍利·杰克逊、麻省理工学院CSAIL博士田云生(音译)、徐杰(音译)以及麻省理工学院教授沃伊奇赫·马图西克一起撰写了这篇论文。他们在2021年的神经信息处理系统会议上展示了这项研究。

  (独家编译:科幻世界)

本文来自: techxplore

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值