链接:proceedings.mlr.press/v87/kalashnikov18a/kalashnikov18a.pdf
摘要
本文研究了利用可扩展的强化学习方法学习基于视觉的动态操纵技能的问题。
我们以抓取为背景研究这个问题,抓取是机器人操纵领域的一个长期挑战。与选择抓取点然后执行预期抓取的静态学习行为不同,我们的方法实现了基于视觉的闭环控制,机器人可根据最新的观察结果不断更新其抓取策略,以优化长视距控制。最近的观察结果不断更新其抓取策略,以优化远距离抓取的成功率。为此,我们引入了 QT-Opt,这是一个可扩展的基于视觉的自监督强化学习框架,它可以利用超过 580 个基于视觉的观察结果来优化机器人的抓取策略。它可以利用超过 580k 次的真实世界抓取尝试来训练深度神经网络 Q 函数。神经网络 Q 函数来执行闭环、 现实世界中的抓取,其对未知物体的抓取成功率高达 96%。除了获得极高的成功率,我们的方法还表现出了 除了获得极高的成功率外,我们的方法还表现出与更多标准抓取系统截然不同的行为:我们的方法仅使用来自肩上摄像头的基于 RGB 视觉的感知,就能自动 学习重新抓取策略,探测物体以找到最有效的抓取方式,学习 我们的方法会自动学习重新抓取策略、探测物体以找到最有效的抓取方式、学习重新定位物体并执行其他非抓取性预抓取操作、 并对干扰和扰动做出动态响应。