#今日论文推荐# 谷歌联合高校发布机器人导航系统LM-Nav,可结合三种预训练模型,无需用户注释即可执行自然语言命令

#今日论文推荐# 谷歌联合高校发布机器人导航系统LM-Nav,可结合三种预训练模型,无需用户注释即可执行自然语言命令

在机器人领域中,最大的挑战之一就是如何让机器人实时听懂人类指令,并立即根据新指令、以及环境变化做出反应,实时进行新规划并完成人类要求的任务。
这一过程对于机器人有着方方面面的要求,例如在依照人类指令导航到达目的地这一任务中,不仅需要机器人理解人类的指令,即要求其有自然语言理解能力,还得具备实时感知周围环境、即视觉识别能力,而且还需要机器人能将语言指令与感知到的环境互相“翻译”,才能最终按照人类指示的要求到达目的地。
针对这类任务,该领域此前的主要解决方法是:让机器人理解文本时,需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是,这一方法需要注释数据,进而会消耗大量成本,最终阻碍了机器人在更多场合的应用。
而最近越来越多的研究表明,如下新方法是可行的:即在没有事先标记的情况下,通过自我监督训练的目标条件策略,来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且,该具有更好的可扩展性与鲁棒性。
正是在这一思路的启发下,谷歌研究人员开发了大型模型导航系统 LM-Nav 系统,该系统结合了上面所说的两种方法的优点,利用了预训练模型的功能,即使在导航数据没有经过任何用户注释的前提下,也可让机器人导航系统通过其自我监督系统,去理解自然语言指令并完成任务要求。
尤其重要的是,该系统内的预训练语言和视觉语言模型的泛化能力非常强大,从而使机器人理解并执行更为复杂的高级指令。
近日,相关论文以《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》(LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action)为题发表在 arXiv 上,美国加州大学伯克利分校和波兰华沙大学一起参与了研究。

论文题目:LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
详细解读:https://www.aminer.cn/research_report/62e74b317cb68b460ff8e000icon-default.png?t=M666https://www.aminer.cn/research_report/62e74b317cb68b460ff8e000
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值