Grasp2Vec：通过自我监督式抓取学习物体表征

谷歌开发者

于 2019-01-02 09:30:00 发布

阅读量852

点赞数

本文链接：https://blog.csdn.net/googledevs/article/details/85818160

版权

文 / Eric Jang，Google 机器人团队软件工程师和 Coline Devin 加州大学伯克利分校博士生兼前研究实习生

从很小的时候开始，人类就能够识别最喜欢的物品，并将它们捡起来，尽管从未有人明确教过他们这样做。认知发展研究表明，与周围物体互动的能力在培养物体感知和操纵能力（例如有目的的抓取）的过程中起着至关重要的作用。通过与周围的环境互动，人类能够以自我监督的方式学习：我们知道自己作出的动作，并会从结果中学习。在机器人领域，人们正在积极研究这种自我监督学习，因为这使机器人系统能够在不需要大量训练数据或人工监督的情况下进行学习。

受物体恒存概念的启发，我们提出了 Grasp2Vec，这是一种简单但非常高效的算法，可用于获取物体表征。Grasp2Vec 基于这样一种直觉，即抓起任何物体的尝试都会提供一些信息。如果机器人抓住并举起某个物体，则此物体在被抓取前必须存在于场景中。此外，机器人知道它抓取的物体目前在自己手中，因此物体被移出了场景。通过这种形式的自我监督，机器人可以根据抓取后场景中的视觉变化来学会识别物体。

基于之前与 X Robotics 的合作（即一系列机器人同时仅通过单目摄像机输入来学习抓取家居用品），我们使用机械臂来 “无目的地” 抓取物体，而这种体验使机器人可以学习丰富的物体表征。然后它们可以将这些表征用于获得 “有目的抓取” 的能力，即机械臂之后可以根据用户指令抓取物体。

构建感知奖励函数

在强化学习 (RL) 的框架中，任务成功与否可以通过 “奖励函数” 来衡量。通过使奖励最大化，机器人可以从头开始自学各种抓取技能。当成功可以由简单的传感器测量结果来衡量时，设计奖励函数并非难事。举一个简单的例子，当机器人按下某个按钮时，它会直接得到奖励。

但是，如果我们的成功标准取决于对手头任务的感知认识，那么设计奖励函数就会困难得多。例如实例抓取任务，我们向机器人呈现一张图片，其中需要其抓取的物体正被抓着。在机器人尝试抓取该物体后，它会检查手中的物体。此任务的奖励函数可以归结为回答物体识别问题：这些物体是否与目标匹配？