arXiv-2024 | NaVILA：基于分层次导航动作策略的腿式机器人视觉语言导航研究

视觉语言导航

已于 2024-12-12 08:51:04 修改

阅读量1k

点赞数 20

分类专栏： VLN 文章标签：人工智能

于 2024-12-12 08:50:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37990186/article/details/144415497

版权

VLN 专栏收录该内容

99 篇文章

订阅专栏

作者：An-Chieh Cheng $^{1}$ , Yandong Ji $^{1}$ , Zhaojing Yang $^{2}$ , Xueyan Zou $^{1}$ , Jan Kautz $^{3}$ , Erdem Bıyık $^{2}$ , Hongxu Yin $^{3}$ , Sifei Liu $^{3}$ , Xiaolong Wang $^{1,3}$
单位： $^{1}$ 加州大学圣地亚哥分校， $^{2}$ 南加利福尼亚大学， $^{3}$ NVIDIA
原文链接： NAVILA: LEGGED ROBOT VISION-LANGUAGE ACTION MODEL FOR NAVIGATION(https://arxiv.org/pdf/2412.04453)
视频演示：https://navila-bot.github.io/

主要贡献

论文提出了NaVILA框架，结合了视觉-语言-动作模型（VLA）与运动技能的两级系统，以提高腿式机器人的导航能力。
NaVILA通过VLM生成高层次动作指令，增强模型泛化性。
引入的VLN-CE-Isaac基准测试，利用Isaac Sim模拟器，提供了更复杂的评估场景。
NaVILA在VLN基准测试中成功率提升17%，在VLN-CE-Isaac中视觉策略成功率提高14%，验证了其泛化和鲁棒性。

研究背景

研究问题

论文主要解决腿式机器人（如四足或类人机器人）的视觉语言导航（Vision-and-Language Navigation, VLN）。

现有的VLN系统通常依赖于预计算地图或使用深度传感器和单目RGB相机构建几何地图，但这些方法在复杂和杂乱的环境中表现有限。

研究难点

该问题的研究难点包括：

如何将人类语言指令转换为低级别的腿部关节动作，
在不同机器人之间迁移VLN模型。
现有的VLN系统在处理连续环境和低级运动控制方面也存在挑战。

相关工作

早期的VLN研究集中在离散环境中的导航，如MP3D数据集。

随着基础模型的提升，许多VLN系统通过大规模预训练技术取得了显著进展。

最近的研究转向了连续环境，使用模拟器如Habitat进行导航。

然而，这些方法通常依赖于模拟器特定的数据，难以泛化到真实世界。

研究方法

论文提出了NaVILA，一种用于腿式机器人视觉语言导航的两级框架。

基于VLMs的高层级导航规划

NaVILA使用一个视觉语言模型（VILA）处理单视图图像，生成自然语言形式的中间动作指令，如“向前移动75厘米”。这些指令作为输入传递给视觉运动强化学习（RL）策略以执行。

VILA 包括三个主要组件：视觉编码器（Vision Encoder）：处理输入图像，将其转换为一系列视觉标记（visual tokens）。投影器（Projector）：通过多层感知机（MLP）将视觉标记下采样并映射到语言域。大型语言模型（LLM）：接收投影后的标记和文本标记，并进行自回归生成。
导航提示：设计特定的导航提示，区分当前观察帧和历史帧，确保模型能够跟踪整体进度并做出即时决策。
监督微调数据融合：从四个方面构建微调数据集：真实视频导航数据、模拟导航数据、辅助导航数据和通用问答数据集。

低层级运动控制策略

NaVILA的低级运动控制策略将VLA输出的中间动作指令转换为精确的关节运动，以实现实时机器人控制。该策略从LiDAR点云构建高度图，并通过随机化来弥合模拟与真实世界的差距。该策略在 Isaac Sim 模拟器中训练，然后部署到真实机器人Go2 上。

Go2 机器人配备激光雷达传感器，提供 18 个自由度，策略仅控制腿部的 12 个关节。
VLM 输出的命令（如“向前移动”）被转换为速度命令，策略通过 PPO 算法训练，实时调整关节位置。
激光雷达生成的高度图用于环境感知，确保安全导航。
单阶段训练方法提高了训练效率和策略的鲁棒性。

实验设计

数据收集

论文设计了多种数据源来训练VLA，包括真实视频、模拟数据、辅助导航数据和通用视觉问答（VQA）数据集。

具体来说，使用了YouTube上的2K个第一人称旅游视频，通过熵采样生成20K条轨迹，并使用Mast3R估计相机姿态以提取步骤动作和生成自然语言指令。

实验设置

在Isaac Sim模拟器中使用Isaac Lab训练视觉运动策略，并在真实机器人上进行部署。实验在多个环境中进行，包括工作区、家庭和室外开放环境。

参数配置

在训练过程中，使用PPO算法训练运动策略，奖励函数包括线速度和角速度跟踪、线性速度惩罚、关节加速度等。LiDAR和高度图的参数也进行了详细配置。

结果与分析

VLN-CE基准测试

在R2R和RxR数据集的Val-Unseen分割上，NaVILA显著优于所有基线方法，成功率达到62.5%，比现有最先进的NaVid方法提高了17%。

空间场景理解

在ScanQA验证集上，NaVILA显著优于现有的NaviLLM模型，CIDEr得分提高了20个百分点。

模拟器中的导航性能

在新的VLN-CE-Isaac基准测试中，NaVILA在Go2和H1机器人上的成功率分别提高了14%和21%。

真实世界评估

在真实世界中，NaVila在25个指令上达到了88%的成功率，其中复杂指令的成功率为75%。

总结

论文提出了NaVILA两级框架，结合了视觉语言模型（VLA）和运动技能，用于通用导航任务。

NaVILA通过生成基于语言的中间动作指令，并使用实时运动策略处理障碍物避让，提高了鲁棒性和灵活性。

实验结果表明，NaVILA在经典VLN基准测试中显著优于现有方法，并在真实世界中展示了强大的性能。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。