DeepMind研究团队使用Sawyer进行连续离散混合学习研究和验证

  机器人学中的基本问题既涉及离散变量,如控制模式或档位切换的选择,也涉及连续变量,如速度设定点和控制增益。它们通常很难解决,因为哪些算法或控制策略最适合并不总是很明显。而当前许多先进的方法,经过优化后也只能很好的处理离散或连续的动作空间,很少能同时解决这两个问题,或者在一个参数设定中表现得比另一个更好。
  2020年1月,谷歌母公司Alphabet旗下的DeepMind的研究人员提出了一种新技术——连续离散混合学习,它可以同时优化离散和连续的动作,以其固有的形式处理混合问题。
  DeepMind研究团队表示:这种技术能够用相同的算法可靠地处理离散和连续的操作,这使我们能够为任何给定的问题选择最自然的解决策略,而不是让算法的便利性支配这种选择。
  该团队的无模型算法利用强化学习或奖励自主代理完成目标的训练技术,解决了连续和离散动作空间的控制问题,以及控制和自治切换的混合最优控制问题。此外,它还允许通过使用“元动作”或其他此类方案来增大动作空间(分别定义一个代理可能感知和采取的状态和动作的范围),从而为现有机器人问题提供新的解决方案,能够应对人工智能训练中的机械磨损等挑战的使能策略。
  研究人员在Sawyer机器人上验证了他们的方法。他们给定Sawyer到达、抓取和提升一个立方块的任务,其中奖励是三个子任务的总和,他们的算法优于现有的任何方法。

在这里插入图片描述
这是因为到达立方块需要代理打开机器人手臂的夹持器,但抓取立方块需要闭合夹持器。他们的方法可以总是全速操作夹持器来改进探索能力,使机器人能够完全解决任务。
在这项研究的基础上,Deepmind研究团队最近又将这一技术运用在人工智能强化学习代理上,即以学习奖励函数描述一个人工智能代理应该如何行为——它可以用来回顾性地注释所有历史数据,为不同任务收集,并预测新任务的奖励。
研究人员表示:这种方法使得扩展机器人学习能力成为可能,因为我们不再需要为学习的每一步运行机器人。经过训练的批[强化学习]代理在实际机器人中部署时,可以执行各种具有挑战性的任务,涉及刚性或可变形对象之间的多重交互。此外,它们表现出了相当程度的健壮性和通用性。在某些情况下,它们甚至超过了人类的遥操作机器人系统。
在实验中,DeepMind团队使用了一个Sawyer机器人,该机器人带有一个手爪和一个腕力扭矩传感器。由两个广角摄像机和一个安装在手腕上的深度摄像机以及手臂上的本体感测器提供观测数据。研究小组总共收集了400多个小时的本体感测数据(即对位置和运动的感知)和通过摄像机拍摄的人类遥控器产生的行为数据。
研究人员在40万个步骤中并行训练了多个强化学习代理,并评估了现实世界中最有希望成功的机器人。Sawyer负责抓取和堆叠矩形物体,在抓取和堆叠动作中分别有80%和40%的时间在有干扰的环境中进行,结果是80%抓取成功率,60%堆叠成功率。
在这里插入图片描述
更令人印象深刻的是,在一项涉及将U盘精确插入计算机USB端口的单独任务中,当代理从100个演示案例获得学习奖励描述时,在8小时内成功率超过80%。
在这里插入图片描述
研究人员表示:“这种多组件系统允许机器人解决各种挑战性的任务,这些任务需要熟练的操作,涉及多个对象的交互,并且由许多时间步骤组成。不必担心损耗、实时处理的限制以及与操作真实机器人相关的许多其他挑战。此外,研究人员有权使用他们选择的批处理(强化学习)算法来训练策略。”
Deepmind断言,这可以作为未来“混合式强化学习”的更多应用的基础。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值