QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

在这里插入图片描述
在机器人交互的典型问题机器人抓取任务中,传统方法通常采用单向执行模式,而不会对抓取结果进行反馈。而在本文介绍的获得 CoRL 2018 最佳系统论文奖的研究 QT-Opt 中,来自伯克利和谷歌大脑的研究者提出了视觉闭环形式的机器人抓取方法,能通过自监督进行反馈来修正抓取动作,这其实和人类抓取物体的方式很相似。第一下没抓到?没关系,挪挪手指就好;东西堆在一起抓不到?没关系,一巴掌打散再说。此外,该方法还有设置简单、抗干扰、泛化性强的优点。Jeff Dean 也推荐了这篇论文,赞叹道「We are starting to get a handle on grasping!」。

摘要

在本文中,我们使用一种可扩展的强化学习方法研究了学习基于视觉的动态操作技能的问题。我们在抓取行为的背景下研究了这个问题,这是机器人操作中一个长期存在的挑战。与选择一个抓取点,然后执行预期的抓取动作的静态学习行为不同,我们的方法实现了基于视觉的闭环控制,机器人根据最近的观测结果不断更新抓取策略,以优化长期的抓取成功率。为此,我们引入了 QT-Opt,这是一个可扩展的基于视觉的自监督增强学习框架,它可以利用 580k 的现实世界尝试抓取的数据来训练一个带有 1.2M 参数的深度神经网络 Q-function,从而执行闭环的真实世界的抓取行为,该方法可以以 96% 的成功率泛化到对没有见过的物体的抓取行为上。除了获得了非常高的成功率,我们的方法还表现出与更标准的抓取系统相比截然不用的性质:在只使用机器臂上的摄像头基于视觉的 RGB 感知的情况下,我们的方法可以自动学习到在物体掉落后重新抓取物体的策略、对物体进行探测从而找到最有效的抓取方式、学习调整物体的位置并且对其它不能抓取的物体上进行预抓取操作、对动态的干扰和扰动作出响应。

引言

与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强化学习为解决这一问题提供了一个很有前景的途径,目前强化学习方向上的工作能够掌握如击球 [1],开门 [2,3],或投掷 [4] 这样的单个技能。为了满足现实世界中对操作的泛化需求,我们将重点关注离策略算法的可扩展学习,并在具体抓取问题的背景下研究这个问题。虽然抓取限制了操作问题的范围,但它仍然保留了该问题中许多最大的挑战:一个抓取系统应该能够使用真实的感知技术可靠、有效地抓取之前没有见过的物体。因此,它是一个更大的机器人操作问题的缩影,为对泛化和多样化的物体进行交互提供了一个具有挑战性和实际可用的模型。

现有的很多机器人抓取工作都将任务分解为感知、规划和行动阶段:机器人首先感知场景并识别合适的抓取位置,然后规划到达这些位置的路径 [5,6,7,8]。这与人类和动物的抓取行为不同,人和动物的抓取行为是一个动态过程,在每个阶段都紧密交织着感知和控制行为 [9,10]。这种动态闭环的抓取很可能对不可预测的物体物理属性、有限的感知信息(例如,单目摄像机输入而非深度)和不精确动作的鲁棒性更强。为长期成功而训练的闭环抓取系统也可以执行智能的预抓取操作,例如推倒或重新调整物体的位置以更容易地抓取物体。然而,闭环抓取控制的一个主要挑战是,感知运动循环必须在视觉模式上封闭,而在新的环境设置下很难有效地利用标准最优控制方法。

本文研究了离策略深度强化学习如何能够利用完全自监督的数据采集方法,获取闭环的动态视觉抓取策略,从而泛化到测试时没有见过的物体上。底层末端执行器的运动值是直接从摄像机观测的原始结果中预测出来的,整个系统在现实世界中使用抓取尝试进行训练。虽然深度强化学习的原理在几十年前就已经被大家知晓 [11,12],但将其应用到一个能够泛化到新物体上的实用机器人学习算法中,则需要一个稳定、可扩展的算法和大型数据集,以及仔细的系统设计。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值