arXiv-2024 | NaVILA:基于分层次导航动作策略的腿式机器人视觉语言导航研究

  • 作者:An-Chieh Cheng 1 ^{1} 1, Yandong Ji 1 ^{1} 1, Zhaojing Yang 2 ^{2} 2, Xueyan Zou 1 ^{1} 1, Jan Kautz 3 ^{3} 3, Erdem Bıyık 2 ^{2} 2, Hongxu Yin 3 ^{3} 3, Sifei Liu 3 ^{3} 3, Xiaolong Wang 1 , 3 ^{1,3} 1,3
  • 单位: 1 ^{1} 1加州大学圣地亚哥分校, 2 ^{2} 2南加利福尼亚大学, 3 ^{3} 3NVIDIA
  • 原文链接: NAVILA: LEGGED ROBOT VISION-LANGUAGE ACTION MODEL FOR NAVIGATION(https://arxiv.org/pdf/2412.04453)
  • 视频演示:https://navila-bot.github.io/

主要贡献

  • 论文提出了NaVILA框架,结合了视觉-语言-动作模型(VLA)与运动技能的两级系统,以提高腿式机器人的导航能力。
  • NaVILA通过VLM生成高层次动作指令,增强模型泛化性。
  • 引入的VLN-CE-Isaac基准测试,利用Isaac Sim模拟器,提供了更复杂的评估场景。
  • NaVILA在VLN基准测试中成功率提升17%,在VLN-CE-Isaac中视觉策略成功率提高14%,验证了其泛化和鲁棒性。

研究背景

研究问题

论文主要解决腿式机器人(如四足或类人机器人)的视觉语言导航(Vision-and-Language Navigation, VLN)。

现有的VLN系统通常依赖于预计算地图或使用深度传感器和单目RGB相机构建几何地图,但这些方法在复杂和杂乱的环境中表现有限。

研究难点

该问题的研究难点包括:

  • 如何将人类语言指令转换为低级别的腿部关节动作,
  • 在不同机器人之间迁移VLN模型。
  • 现有的VLN系统在处理连续环境和低级运动控制方面也存在挑战。

相关工作

早期的VLN研究集中在离散环境中的导航,如MP3D数据集。

随着基础模型的提升,许多VLN系统通过大规模预训练技术取得了显著进展。

最近的研究转向了连续环境,使用模拟器如Habitat进行导航。

然而,这些方法通常依赖于模拟器特定的数据,难以泛化到真实世界。

研究方法

论文提出了NaVILA,一种用于腿式机器人视觉语言导航的两级框架。

基于VLMs的高层级导航规划

NaVILA使用一个视觉语言模型(VILA)处理单视图图像,生成自然语言形式的中间动作指令,如“向前移动75厘米”。这些指令作为输入传递给视觉运动强化学习(RL)策略以执行。

  • VILA 包括三个主要组件:视觉编码器(Vision Encoder):处理输入图像,将其转换为一系列视觉标记(visual tokens)。投影器(Projector):通过多层感知机(MLP)将视觉标记下采样并映射到语言域。大型语言模型(LLM):接收投影后的标记和文本标记,并进行自回归生成。

  • 导航提示:设计特定的导航提示,区分当前观察帧和历史帧,确保模型能够跟踪整体进度并做出即时决策。

  • 监督微调数据融合:从四个方面构建微调数据集:真实视频导航数据、模拟导航数据、辅助导航数据和通用问答数据集。

低层级运动控制策略

NaVILA的低级运动控制策略将VLA输出的中间动作指令转换为精确的关节运动,以实现实时机器人控制。该策略从LiDAR点云构建高度图,并通过随机化来弥合模拟与真实世界的差距。该策略在 Isaac Sim 模拟器中训练,然后部署到真实机器人Go2 上。

  • Go2 机器人配备激光雷达传感器,提供 18 个自由度,策略仅控制腿部的 12 个关节。
  • VLM 输出的命令(如“向前移动”)被转换为速度命令,策略通过 PPO 算法训练,实时调整关节位置。
  • 激光雷达生成的高度图用于环境感知,确保安全导航。
  • 单阶段训练方法提高了训练效率和策略的鲁棒性。

实验设计

数据收集

论文设计了多种数据源来训练VLA,包括真实视频、模拟数据、辅助导航数据和通用视觉问答(VQA)数据集。

具体来说,使用了YouTube上的2K个第一人称旅游视频,通过熵采样生成20K条轨迹,并使用Mast3R估计相机姿态以提取步骤动作和生成自然语言指令。

实验设置

在Isaac Sim模拟器中使用Isaac Lab训练视觉运动策略,并在真实机器人上进行部署。实验在多个环境中进行,包括工作区、家庭和室外开放环境。

参数配置

在训练过程中,使用PPO算法训练运动策略,奖励函数包括线速度和角速度跟踪、线性速度惩罚、关节加速度等。LiDAR和高度图的参数也进行了详细配置。

结果与分析

VLN-CE基准测试

在R2R和RxR数据集的Val-Unseen分割上,NaVILA显著优于所有基线方法,成功率达到62.5%,比现有最先进的NaVid方法提高了17%。

空间场景理解

在ScanQA验证集上,NaVILA显著优于现有的NaviLLM模型,CIDEr得分提高了20个百分点。

模拟器中的导航性能

在新的VLN-CE-Isaac基准测试中,NaVILA在Go2和H1机器人上的成功率分别提高了14%和21%。

真实世界评估

在真实世界中,NaVila在25个指令上达到了88%的成功率,其中复杂指令的成功率为75%。

总结

论文提出了NaVILA两级框架,结合了视觉语言模型(VLA)和运动技能,用于通用导航任务。

NaVILA通过生成基于语言的中间动作指令,并使用实时运动策略处理障碍物避让,提高了鲁棒性和灵活性。

实验结果表明,NaVILA在经典VLN基准测试中显著优于现有方法,并在真实世界中展示了强大的性能。

### 解决PyCharm无法加载Conda虚拟环境的方法 #### 配置设置 为了使 PyCharm 能够成功识别并使用 Conda 创建的虚拟环境,需确保 Anaconda 的路径已正确添加至系统的环境变量中[^1]。这一步骤至关重要,因为只有当 Python 解释器及其关联工具被加入 PATH 后,IDE 才能顺利找到它们。 对于 Windows 用户而言,在安装 Anaconda 时,默认情况下会询问是否将它添加到系统路径里;如果当时选择了否,则现在应该手动完成此操作。具体做法是在“高级系统设置”的“环境变量”选项内编辑 `Path` 变量,追加 Anaconda 安装目录下的 Scripts 文件夹位置。 另外,建议每次新建项目前都通过命令行先激活目标 conda env: ```bash conda activate myenvname ``` 接着再启动 IDE 进入工作区,这样有助于减少兼容性方面的问题发生概率。 #### 常见错误及修复方法 ##### 错误一:未发现任何解释器 症状表现为打开 PyCharm 新建工程向导页面找不到由 Conda 构建出来的 interpreter 列表项。此时应前往 Preferences/Settings -> Project:...->Python Interpreter 下方点击齿轮图标选择 Add...按钮来指定自定义的位置。按照提示浏览定位到对应版本 python.exe 的绝对地址即可解决问题。 ##### 错误二:权限不足导致 DLL 加载失败 有时即使指定了正确的解释器路径,仍可能遇到由于缺乏适当的操作系统级许可而引发的功能缺失现象。特别是涉及到调用某些特定类型的动态链接库 (Dynamic Link Library, .dll) 时尤为明显。因此拥有管理员身份执行相关动作显得尤为重要——无论是从终端还是图形界面触发创建新 venv 流程均如此处理能够有效规避此类隐患。 ##### 错误三:网络连接异常引起依赖下载超时 部分开发者反馈过因网速慢或者其他因素造成 pip install 操作中途断开进而影响整个项目的初始化进度条卡住的情况。对此可尝试调整镜像源加速获取速度或是离线模式预先准备好所需资源包后再继续后续步骤。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值