Self-Supervised Visual Planning with Temporal Skip

摘要:

为了能够自主学习各种复杂技能,机器人必须能够在无需人工监督的情况下从自己的自主收集数据中学习。预测始终可用于自主收集的数据的一种学习信号。如果机器人可以学习预测未来,则可以使用此预测模型采取行动以产生期望的结果,例如将物体移动到特定位置。但是,在复杂的开放世界场景中,难以设计用于预测的表示形式。在这项工作中,我们的目标是通过直接视频预测来实现自我监督的机器人学习:我们没有尝试设计良好的表示方式,而是直接预测机器人接下来会看到什么,然后使用该模型来实现期望的目标。用于机器人操纵的视频预测中的关键挑战是如何处理复杂的空间布置,例如遮挡。为此,我们引入了一种视频预测模型,该模型可以通过合并时间跳过连接来通过遮挡来跟踪对象。结合新颖的计划标准和动作空间公式,我们证明了该模型大大优于基于视频预测的控制的先前工作。我们的结果表明,对训练过程中未见到的对象进行了操作,处理了多个对象以及将对象推向障碍物。这些结果代表了可以在自我监督的机器人学习中完全完成的技能范围和复杂性的显着进步。

 

总结:是一种对MPC问题的扩展, 

总结:

我们表明,可以完全利用来自随机推动运动的视频训练的视觉预测模型来构建模型预测控制方案,该方案可以解决广泛的多目标推动任务,即使发生遮挡。我们还证明了我们可以在动作条件视频预测框架中结合离散动作和连续动作,以执行更复杂的行为,例如抬起夹具以在对象上方移动。尽管我们的方法比以前的方法有了显着的改进,但它确实有很多局限性。我们实验中的行为相对较短。原则上,视觉MPC方法可以使机器人重复重试任务直到成功,但是重试能力受模型跟踪目标像素的能力限制:随着时间的推移,跟踪会变差,尽管与以前的工作相比,该模型通过遮挡获得的跟踪效果要好得多,重复遮挡仍会导致其失去跟踪。改善指定像素的视觉跟踪质量可以使系统重试任务,直到任务成功。更复杂的行为,例如拾取和放置(例如,布置桌子设置),也可能很难仅通过随机收集的数据来学习。我们预计,更多以目标为导向的数据收集将大大提高模型执行复杂任务的能力。此外,在可变的时间尺度上结合层次结构或原因的更好的预测模型将进一步提高可视MPC执行时间扩展任务的能力。幸运的是,随着视频预测方法的不断改进,我们希望像我们这样的方法能够进一步提高其功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值