#今日论文推荐# 谷歌联合高校发布机器人导航系统LM-Nav，可结合三种预训练模型，无需用户注释即可执行自然语言命令_av: robotic navigation with large pre-trained mode-CSDN博客

#今日论文推荐# 谷歌联合高校发布机器人导航系统LM-Nav，可结合三种预训练模型，无需用户注释即可执行自然语言命令

在机器人领域中，最大的挑战之一就是如何让机器人实时听懂人类指令，并立即根据新指令、以及环境变化做出反应，实时进行新规划并完成人类要求的任务。
这一过程对于机器人有着方方面面的要求，例如在依照人类指令导航到达目的地这一任务中，不仅需要机器人理解人类的指令，即要求其有自然语言理解能力，还得具备实时感知周围环境、即视觉识别能力，而且还需要机器人能将语言指令与感知到的环境互相“翻译”，才能最终按照人类指示的要求到达目的地。
针对这类任务，该领域此前的主要解决方法是：让机器人理解文本时，需要事先训练它从大量带有文本指令注释的类似任务中进行学习。但是，这一方法需要注释数据，进而会消耗大量成本，最终阻碍了机器人在更多场合的应用。
而最近越来越多的研究表明，如下新方法是可行的：即在没有事先标记的情况下，通过自我监督训练的目标条件策略，来训练机器人从大型的、未标记的数据集中进行基于视觉的导航的学习。而且，该具有更好的可扩展性与鲁棒性。
正是在这一思路的启发下，谷歌研究人员开发了大型模型导航系统 LM-Nav 系统，该系统结合了上面所说的两种方法的优点，利用了预训练模型的功能，即使在导航数据没有经过任何用户注释的前提下，也可让机器人导航系统通过其自我监督系统，去理解自然语言指令并完成任务要求。
尤其重要的是，该系统内的预训练语言和视觉语言模型的泛化能力非常强大，从而使机器人理解并执行更为复杂的高级指令。
近日，相关论文以《LM-Nav：具有大型预训练语言、视觉和动作模型的机器人导航系统》（LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action）为题发表在 arXiv 上，美国加州大学伯克利分校和波兰华沙大学一起参与了研究。

论文题目：LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
详细解读：https://www.aminer.cn/research_report/62e74b317cb68b460ff8e000https://www.aminer.cn/research_report/62e74b317cb68b460ff8e000
AMiner链接：https://www.aminer.cn/?f=cs