如何让机器人自主行动?伯克利利用神经网络动力学实现基于模型的强化学习


原文来源BAIR(伯克利人工智能研究院)

作者:Anusha Nagabandi, Gregory Kahn

「雷克世界」编译:嗯~阿童木呀


一般说来,让机器人在现实世界中自主行动是一件很困难的事情。真的很难!即使具有昂贵的机器人和世界一流的研究人员,机器人仍然难以在复杂的非结构化环境中进行自主导航和交互。

 

很多人可能会有这样一个疑问:为什么自主机器人不能像我们一样在这个世界中生活呢?那是因为能够处理我们世界所有复杂问题的工程系统是很难的。从非线性动力学、部分可观测性到不可预知的地形和传感器故障,机器人特别容易受到墨菲定律的影响:一切可能出错的事物都会出错。我们并不是通过对机器人可能遇到的每个情景进行编码以对抗墨菲定律,相反,我们可以选择接受这种失败的可能性,并让我们的机器人能够从中学习。从经验中学习控制策略是有利的,因为与手动控制器不同的是,学习控制器可以通过更多的数据来进行适应和改进。因此,当出现这样一个场景——其中,所有事情都出错了,尽管机器人虽然会失败,但是,当下一次遇到类似的情况时,已学习过的控制器便有可能修正它的错误。为了处理现实世界中任务的复杂性,当前基于学习的方法通常使用深度神经网络,这是一种强大但非数据有效的神经网络;这些基于反复摸索的学习器往往会经历再次失败、第三次失败,甚至是数千到数百万次的失败。当代深度强化学习方法的样本无效性往往是现实世界中利用学习型方法的主要瓶颈之一。

  


 1.一个已学习的神经网络动力学模型使六足机器人学习运行和遵循所需的轨迹,而整个过程只需17分钟的真实经验。

 

我们一直在研究用于机器人控制的神经网络的基于学习的样本高效方法。对于复杂的、接触点丰富的模拟机器人以及实际应用中的机器人(图1),我们的方法能够学习轨迹跟踪的运动技能,而这一过程仅使用收集自机器人在环境中的随机行为的数分钟数据。在本文中,我们将对该方法和结果进行简要概述。更多细节查阅论文(https://arxiv.org/pdf/1708.02596.pdf)和相关代码(https://github.com/nagaban2/nn_dynamics

 

样本效率:无模型的VS基于模型的

 

从经验中学习机器人技能通常属于强化学习的范畴。强化学习算法一般可以分为两类:无模型,即学习策略或值函数;以及基于模型的,即学习动力学模型。虽然无模型深度强化学习算法能够学习广泛的机器人技能,但它们往往会受到高昂的样本复杂性的限制,通常需要数百万个样本才能获得良好的性能表现,而且一次只能学习一项任务。尽管之前的一些研究已经将这些无模型算法应用于现实世界的操作任务中,但这些算法的高度复杂性和不灵活性已经阻碍了它们在现实世界中用于学习运动技能的应用。

 

基于模型的强化学习算法通常被认为是更有效的样本。然而,为了获得良好的采样效率,这些基于模型的算法通常使用相对简单的函数逼近器,其不能很好地推广到复杂的任务,或者使用高斯过程这样的概率动力学模型,其概括性好,但复杂和高三维的领域,如摩擦接触,会导致不连续的动力学系统。相反,我们使用中等大小的神经网络作为函数逼近器,可以实现出色的样本效率,同时仍然具有足够的表现力,可以用于各种复杂和高维运动任务的推广和应用。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值