重排视觉世界

VIP文章谷歌开发者

于 2021-03-30 18:30:00 发布

阅读量838

点赞数

文章标签：人工智能深度学习计算机视觉机器学习编程语言

本文链接：https://blog.csdn.net/googledevs/article/details/115339422

版权

文 / Andy Zeng 和 Pete Florence，Google 机器人团队

重排目标（如整理书架上的书籍，收拾餐桌上的餐具，或推动一堆咖啡豆）是一项基本技能，可以使机器人与我们非结构化且多样化的世界进行物理交互。对人类来说很容易，但完成这样的任务对嵌入式机器学习 (ML) 系统来说仍然是一项开放的研究挑战，因为它同时需要高级和低级的感知推理。例如，当堆放一摞书时，人们会考虑书本应该放置的位置和顺序，同时确保书本的边缘相互对齐，形成整齐的书堆。

研究挑战
https://arxiv.org/pdf/2011.01975.pdf

在 ML 的许多应用领域中，模型架构的简单差异会表现出迥异的泛化特性。因此，我们可能会有这样的疑问：是否存在某些深层网络架构能够支持重排问题的简单底层元素？例如，卷积架构在计算机视觉中很常见，由于它们编码翻译不变性，即使图像被移动仍能产生相同的响应；而 Transformer 架构在语言处理中很常见，因为它们利用自我关注捕获长程上下文的依赖关系。在机器人应用中，一种常见的架构元素是在学习的模型内部使用以目标为中心的表示，如姿势、关键点或目标描述符，但这些表示需要额外的训练数据（通常是手动标注数据），并且难以描述困难的场景，例如可变形物（如橡皮泥）、液体（蜂蜜）或一堆东西（切碎的洋葱）。

Transformer 架构
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
关键点
https://sites.google.com/corp/view/keypointsintothefuture
目标描述符
https://sites.google.com/corp/view/visuomotor-correspondence

今天，我们介绍的是一种用于学习基于视觉的重排任务的简单模型架构 Transporter Network，在 CoRL 2020 期间作为论文和专题演讲登场。Transporter Nets 使用新颖的 3D 空间理解方法，避免了对以目标为中心的