探索未来机器人导航：GNM、ViNT 和 NoMaD 模型

最新推荐文章于 2025-03-03 22:26:31 发布

平依佩Ula

最新推荐文章于 2025-03-03 22:26:31 发布

阅读量1.6k

点赞数 6

本文链接：https://blog.csdn.net/gitblog_00012/article/details/139517666

版权

探索未来机器人导航：GNM、ViNT 和 NoMaD 模型

项目地址:https://gitcode.com/gh_mirrors/vi/visualnav-transformer

在人工智能和机器人领域，通用导航模型正逐渐成为研究的焦点。由Berkeley AI Research团队推出的General Navigation Models，包括GNM（通用导航模型）、ViNT（视觉导航基础模型）和NoMaD（目标掩模扩散策略），是这一领域的最新突破，旨在实现跨形态的零示教目标条件视觉导航。

项目介绍

GNM、ViNT和NoMaD是一组可泛化的模型，它们能够控制多种不同的机器人，无需特定的前期训练。这些模型不仅在多样化的训练数据集上表现卓越，还支持高效的微调或适应新环境与任务。通过这个开源项目，研究人员和开发者可以访问代码、预训练模型以及在TurtleBot2/LoCoBot等机器人上部署的示例代码。

项目技术分析

该项目采用Python编写，依赖于CUDA 10+和GPU资源，通过conda环境管理工具进行搭建。核心训练脚本train.py支持自定义数据集训练，并提供数据处理、数据划分及模型训练的功能。模型文件存储在vint_train/models/中，同时包含了收集和转换ROS包为训练数据的脚本。

ViNT是一种基于Transformer的基础模型，可以用于视觉导航任务。NoMaD利用了目标掩码扩散策略，适用于导航和探索任务。所有模型均经过一系列公开和私有数据集的训练，包括RECON、TartanDrive、SCAND、GoStanford2（修改版）和SACSoN/HuRoN。