QT-Opt: Scalable Deep Reinforcement Learningfor Vision-Based Robotic Manipulation

链接:proceedings.mlr.press/v87/kalashnikov18a/kalashnikov18a.pdf

摘要

本文研究了利用可扩展的强化学习方法学习基于视觉的动态操纵技能的问题。
我们以抓取为背景研究这个问题,抓取是机器人操纵领域的一个长期挑战。与选择抓取点然后执行预期抓取的静态学习行为不同,我们的方法实现了基于视觉的闭环控制,机器人可根据最新的观察结果不断更新其抓取策略,以优化长视距控制。最近的观察结果不断更新其抓取策略,以优化远距离抓取的成功率。为此,我们引入了 QT-Opt,这是一个可扩展的基于视觉的自监督强化学习框架,它可以利用超过 580 个基于视觉的观察结果来优化机器人的抓取策略。它可以利用超过 580k 次的真实世界抓取尝试来训练深度神经网络 Q 函数。神经网络 Q 函数来执行闭环、 现实世界中的抓取,其对未知物体的抓取成功率高达 96%。除了获得极高的成功率,我们的方法还表现出了 除了获得极高的成功率外,我们的方法还表现出与更多标准抓取系统截然不同的行为:我们的方法仅使用来自肩上摄像头的基于 RGB 视觉的感知,就能自动 学习重新抓取策略,探测物体以找到最有效的抓取方式,学习 我们的方法会自动学习重新抓取策略、探测物体以找到最有效的抓取方式、学习重新定位物体并执行其他非抓取性预抓取操作、 并对干扰和扰动做出动态响应。

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值