【翻译】评论文章-Rapid Exploration for Open-World Navigation with Latent Goal Models

源文章来自杂志 Computer Vision News,December 2021,作者Marica Muffoletto

亲爱的读者,本月我们回顾了来自伯克利大学和卡内基梅隆大学的一篇论文-Rapid Exploration for Open-World Navigation with Latent Goal Models论文连接。该论文最近在第五届伦敦机器人学习大会上发表。
我们欢迎这项新的计算机视觉研究,我们感谢作者 Dhruv Shah, Benjamin Eysenbach, Nicholas Rhinehart, Sergey Levine允许我们使用他们的图像来说明此评论。

主题

这项研究主要侧重于这样一个问题:给出目的地,机器人根据环境找到目的地(如下图)
在这里插入图片描述
在这里插入图片描述

这项工作的基础是对视觉干扰物的鲁棒性和适应性。试问,谁需要一个只能在天气晴朗和无障碍物的情况才能达到目的地的机器人呢?
这项研究的核心是一个感知输入的压缩表示和目标图像。作为类似的最先进的方法,该研究基于一个拓扑地图学习一个距离函数,以及基于低级策略。与其他方法的主要区别是RECON的效率以及鲁棒性。虽然最近的研究只在访问它或需要高样本复杂性并因此模拟对应物后,对一个状态的新颖性进行推理,RECON利用以前在不同环境中的经验来加速学习。

数据

作者仔细地解决了使用以前的经验来构建鲁棒性的问题方法,通过组织他们自己的由 5,000 多个自监督轨迹组成的数据集。9个小时,收集了超过9个不同复杂度的真实世界环境。如下图:
在这里插入图片描述
数据集包含来自各种传感器的测量值,包括准确度高的、低的传感器。假设基于学习的技术与多模态相结合传感器融合可以在现实世界中提供很多好处。这个数据集也在网上提供,有助于开源和可复制研究。
为了收集这些数据,作者使用了一个时间相关的随机行走和一种检测机器人是否发生碰撞或者卡住的机制,以及一个让机器人避开障碍物的自动进行回退的操作。碰撞检测器进一步被用来生成收集到的轨迹事件标签。

实现

论文中介绍的方法称为RECON(Rapid Exploration Controller for Outcome-driven Navigation)。它基于两个创新的部分:

  • 目标的不确定性感知,环境受限表示可以快速适应新的场景。这也称为潜在目标模型,它编码先验有关感知、导航可供性和短视距控制的知识.
  • 具有目标环境记忆的拓扑图。
    它们都服务于一个双重目的:探索一个新的环境,该环境结合了使用学习模型进行基于前沿的探索和潜在目标采样,以及使用拓扑图和学习模型导航探索环境。所有这一切都是通过使用先前访问过的环境的先前经验进行的监督训练的初始步骤来实现的。
    在这里插入图片描述
    第一个创新部分基于先前名为InfoBot的研究(希望策略具有很好的迁移性):Transfer and Exploration via the Information Bottleneck,上图为模型架构。编码器提取目标图像Og的表示Zgt,以当前观察Ot为条件。编码的表示,它被构建为仅保留目标环境的相对位置,然后被解码为最佳行为Agt的预测和到目标的时间距离Dgt。
    该模型的目标包括最大化模型从编码表示预测动作和距离的能力,以及传入目标图像的模型压缩。
    该架构用来在之前描述的离线数据集上预训练潜在目标模型,该模型用作RECON的第二个组成部分:构建拓扑地图。这是在探索阶段创建的,然后在导航阶段再次使用,以快速导航到目标。地图的拓扑记忆是通过寻找子目标(由模型中的潜在变量表示)通过探索逐步构建的。给定一个子目标,该子目标是根据机器人对目标可达性及其与边界的接近度的估计而选择的,该算法执行动作,其与目标的距离用于构建拓扑图的边。
    作者还详细的描述了关于RECON的更多核心实现细节(超参和架构)以及算法,作为补充的一部分,以伪代码形式提供。

结果

作者在开放环境中对移动地面机器人进行了RECON实验。鉴于它们在时间和鲁棒性方面都优于最先进的方法,实验结果非常出色。
在这里插入图片描述
他们将 RECON 与五个基线进行比较,在相同的 20 小时离线数据上进行训练,并在目标环境中进行微调。RECON 在发现所需目标所花费的时间和使用先前探索导航到所发现目标所花费的时间方面均优于所有基线。 如下所示,RECON 实现了导航到棋盘格目标,并且用了更短的路径且比唯一的其他成功方法少 30% 的时间。
在这里插入图片描述
RECON也被证明在未见的障碍物和天气条件下是稳定的。这是由学习到的表示对这些因素的不变性所保证的。为了测试这一点,作者让 RECON 首先探索一个新的“垃圾场”,以学习到达包含蓝色垃圾箱的目标图像,然后当遇到以前看不见的障碍物或光照条件时,他们评估学习到的目标到达策略。在上图中,在新的障碍物下,为了避开障碍物,机器的轨迹有些许变化;在不同的光线情况下,机器的轨迹不受影响。
最后,我们还进行了一些消融研究(删除模型或算法的某些“功能”,并查看其如何影响性能),以确保 RECON 方法的构建块(内存拓扑图、采样目标的部署、信息瓶颈)是其鲁棒性和性能的基础。实验证实了这一点,实验显示了完整算法大大改善了其他变体的计时(探索时间为 1.58-4.58 分钟,导航时间为 2.9-11.4 秒)。

结论

这篇论文代表了机器人领域研究的一个很好的例子,它利用计算机视觉和强化学习领域的最新发展,输出了一个完全可行和实用的应用程序。作者声称 RECON 可以在 20 分钟内发现最远 80m 的目标,并且鉴于其对障碍物和户外条件的健壮性证明,似乎是一种可靠的开放环境导航算法! 我们也很乐意在新环境中尝试并测试探索和导航能力。我们可以欣赏下面的短视频,其中展示了部署在 Clearpath Jackal 地面机器人上并探索郊区环境以寻找视觉目标的方法。

Video for Computer Vision article December 2021

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值