文 / Andy Zeng 和 Pete Florence,Google 机器人团队
重排目标(如整理书架上的书籍,收拾餐桌上的餐具,或推动一堆咖啡豆)是一项基本技能,可以使机器人与我们非结构化且多样化的世界进行物理交互。对人类来说很容易,但完成这样的任务对嵌入式机器学习 (ML) 系统来说仍然是一项开放的研究挑战,因为它同时需要高级和低级的感知推理。例如,当堆放一摞书时,人们会考虑书本应该放置的位置和顺序,同时确保书本的边缘相互对齐,形成整齐的书堆。
研究挑战
https://arxiv.org/pdf/2011.01975.pdf
在 ML 的许多应用领域中,模型架构的简单差异会表现出迥异的泛化特性。因此,我们可能会有这样的疑问:是否存在某些深层网络架构能够支持重排问题的简单底层元素?例如,卷积架构在计算机视觉中很常见,由于它们编码翻译不变性,即使图像被移动仍能产生相同的响应;而 Transformer 架构在语言处理中很常见,因为它们利用自我关注捕获长程上下文的依赖关系。在机器人应用中,一种常见的架构元素是在学习的模型内部使用以目标为中心的表示,如姿势、关键点或目标描述符,但这些表示需要额外的训练数据(通常是手动标注数据),并且难以描述困难的场景,例如可变形物(如橡皮泥)、液体(蜂蜜)或一堆东西(切碎的洋葱)。
Transformer 架构
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html关键点
https://sites.google.com/corp/view/keypointsintothefuture目标描述符
https://sites.google.com/corp/view/visuomotor-correspondence
今天,我们介绍的是一种用于学习基于视觉的重排任务的简单模型架构 Transporter Network,在 CoRL 2020 期间作为论文和专题演讲登场。Transporter Nets 使用新颖的 3D 空间理解方法,避免了对以目标为中心的