重排视觉世界

文 / Andy Zeng 和 Pete Florence,Google 机器人团队

重排目标(如整理书架上的书籍,收拾餐桌上的餐具,或推动一堆咖啡豆)是一项基本技能,可以使机器人与我们非结构化且多样化的世界进行物理交互。对人类来说很容易,但完成这样的任务对嵌入式机器学习 (ML) 系统来说仍然是一项开放的研究挑战,因为它同时需要高级和低级的感知推理。例如,当堆放一摞书时,人们会考虑书本应该放置的位置和顺序,同时确保书本的边缘相互对齐,形成整齐的书堆。

  • 研究挑战
    https://arxiv.org/pdf/2011.01975.pdf

在 ML 的许多应用领域中,模型架构的简单差异会表现出迥异的泛化特性。因此,我们可能会有这样的疑问:是否存在某些深层网络架构能够支持重排问题的简单底层元素?例如,卷积架构在计算机视觉中很常见,由于它们编码翻译不变性,即使图像被移动仍能产生相同的响应;而 Transformer 架构在语言处理中很常见,因为它们利用自我关注捕获长程上下文的依赖关系。在机器人应用中,一种常见的架构元素是在学习的模型内部使用以目标为中心的表示,如姿势、关键点或目标描述符,但这些表示需要额外的训练数据(通常是手动标注数据),并且难以描述困难的场景,例如可变形物(如橡皮泥)、液体(蜂蜜)或一堆东西(切碎的洋葱)。

  • Transformer 架构
    https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

  • 关键点
    https://sites.google.com/corp/view/keypointsintothefuture

  • 目标描述符
    https://sites.google.com/corp/view/visuomotor-correspondence

今天,我们介绍的是一种用于学习基于视觉的重排任务的简单模型架构 Transporter Network,在 CoRL 2020 期间作为论文和专题演讲登场。Transporter Nets 使用新颖的 3D 空间理解方法,避免了对以目标为中心的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值