-
作者:An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Xueyan Zou, Jan Kautz, Erdem Bıyık, Hongxu Yin, Sifei Liu, Xiaolong Wang
-
单位:加州大学圣地亚哥分校,南加利福尼亚大学,NVIDIA
-
原文链接: NAVILA: LEGGED ROBOT VISION-LANGUAGE ACTION MODEL FOR NAVIGATION (https://arxiv.org/pdf/2412.04453)
-
项目主页:https://navila-bot.github.io/
-
代码链接:https://github.com/yang-zj1026/legged-loco
主要贡献
-
论文提出了NaVILA框架,结合了视觉-语言-动作模型(VLA)与运动控制的两级系统,以提高腿式机器人的导航能力。
-
NaVILA通过VLM生成高层次动作指令,增强模型泛化性。
-
引入的VLN-CE-Isaac基准测试,利用Isaac Sim模拟器,提供了更复杂的评估场景。
-
NaVILA在VLN基准测试中成功率提升17%,在VLN-CE-Isaac中视觉策略成功率提高14%,验证了其泛化和鲁棒性。
研究背景
研究问题
现有的视觉语言导航(Vision-and-Language Navigation, VLN)系统通常依赖于预计算地图或使用深度传感器和单目RGB相机构建几何地图,但这些方法在复杂和杂乱的环境中表现有限。
论文主要解决腿式机器人(如四足机器狗或类人机器人)的视觉语言导航问题。
研究难点
该问题的研究难点包括:
-
如何将人类语言指令转换为低级别的腿部关节动作,
-
在不同机器人之间迁移VLN模型。
-
现有的VLN系统在处理连续环境和低级运动控制方面也存在挑战。
相关工作
-
视觉导航:传统方法依赖于预计算地图或构建环境的几何地图。近年来,基于模仿学习和强化学习的方法取得了显著进展。
-
视觉语言导航:智能体使用视觉线索和自然语言指令在复杂环境中导航。早期研究集中在离散导航,随着基础模型的进步,VLN系统通过大规模预训练模型和预训练技术显著改进。最近的研究转向连续环境(VLN-CE),引入了更大的复杂性。
-
机器人基础模型:旨在统一处理多模态输入并输出动作。现有工作主要集中在大规模机器人数据集上训练通用机器人策略,但主要关注操控任务。最近的基础导航模型被提出,但它们主要关注目标导航。
-
腿式机器人导航学习:专注于使机器人能够在各种地形上行走。早期工作依赖于本体感受信息,现代方法结合视觉输入和强化学习以提高复杂环境中的导航能力。
研究方法
NaVILA是用于腿式机器人视觉语言导航的两级框架,使用视觉语言模型(VILA)处理单视图图像,生成自然语言形式的中间动作指令。
然后,这些指令作为输入传递给视觉运动强化学习策略来生成动作。
基于VLMs的高层级导航规划
VILA 基础
VILA由三个主要组件组成:视觉编码器、投影器和大型语言模型(LLM)。
-
视觉编码器将输入图像转换为视觉标记序列,
-
这些标记通过多层感知机(MLP)投影器映射到语义空间。
-
这些投影后的标记与文本标记一起被发送到LLM进行自回归生成。
VILA采用三阶段训练过程,包括连接器的预训练、连接器和LLM的联合预训练以及使用指令调整数据的微调。
导航 Prompts
在视觉-语言导航任务中,不同时间步的图像具有不同的作用。当前时间步的图像用于立即决策,而之前的帧作为记忆库帮助智能体追踪整体进度。
为了更好地处理这两种表示,论文使用导航任务提示方法,通过区分当前观察和历史帧,并使用文本线索来构建导航任务提示。
监督微调数据混合策略
在视觉语言导航(VLN)任务中,有效的监督微调(SFT)数据对于开发稳健的视觉-语言动作模型至关重要。论文使用数据混合策略,结合了四种数据源以提高模型的泛化能力和导航性能:
-
真实视频导航数据:从YouTube上的2K个以自我为中心的游览视频中提取轨迹和指令,使用VLM生成自然语言描述。
-
模拟导航数据:利用R2R-CE和RxR-CE数据集,在Habitat模拟器中生成连续的动作序列,并进行合并以减少数据集大小和提高多样性。
-
辅助导航数据:使用EnvDrop和ScanQA数据集,增强场景理解和导航指令生成能力。
-
通用VQA数据集:纳入多种视频/图像VQA数据集,保持模型的广泛领域知识。
这种多样化的数据来源有助于NaVILA在导航任务中表现出色,并在真实世界环境中具有良好的泛化能力。
训练与推理
-
训练过程从VILA的第二阶段模型开始,该模型已经经过了视觉-语言语料库的预训练。
-
然后,应用SFT数据混合对整个VLM进行一个epoch的训练。
-
在推理阶段,使用正则表达式解析器从LLM输出中提取动作类型及其对应的参数。
这种方法在模拟环境和真实世界实验中都表现出了有效性。
低层级运动控制策略
该策略负责将高层次的自然语言导航命令转换为精确的关节运动。
Go2机器人平台
-
使用Go2机器人狗作为实验平台。
-
机器人配备了激光雷达传感器,频率为15Hz,具有18个自由度(DoFs),其中腿部有12个DoFs。
-
在策略训练过程中,基座的6个DoFs不受约束,策略仅控制腿部的12个关节电机。
高层次命令解释
VLM输出一组可执行的动作词(如“向前移动”、“左转”等),将其转换为固定的命令速度(如0.5 m/s、π/6 rad/s等),并执行相应的时间以匹配特定的VLM值。
低层次动作和观测空间
-
动作空间定义为期望的关节位置,转换为模拟器的扭矩输入。
-
采用PPO算法训练策略,critic观察特权环境并生成价值函数以更新演员,而actor仅接收现实世界中的传感器数据。
-
观察空间包括当前的本体感受数据和特权地形高度扫描。
激光雷达高度图
-
使用激光雷达传感器创建2.5D高度图,以感知周围地形并确保安全导航。
-
高度图通过选择每个体素网格内的最低值并进行最大滤波来生成。
训练
-
采用单阶段强化学习框架,直接与环境互动进行训练,避免了教师-学生训练的两阶段方法。
-
训练在Isaac Sim模拟器中进行,支持高达60K FPS的高吞吐量。
实验
实验设置
在Isaac Sim模拟器中使用Isaac Lab训练视觉运动策略,并在真实机器人上进行部署。
实验在多个环境中进行,包括工作区、家庭和室外开放环境。
参数配置
在训练过程中,使用PPO算法训练运动策略,奖励函数包括线速度和角速度跟踪、线性速度惩罚、关节加速度等。LiDAR和高度图的参数也进行了详细配置。
VLM表现
-
在VLN-CE基准测试中,NaVILA在R2R和RxR数据集的val-unseen分割上表现出色,超越了所有基线方法。NaVILA在单视图RGB输入的情况下,达到了与使用全景视图、里程计或模拟器预训练的路径预测器的方法相当或更好的结果。
-
NaVILA在RxR-CE数据集的val-unseen分割上的零样本性能显著优于当前的单视图SOAT模型NaVid,显示出其在跨数据集上的强大泛化能力。
模拟器中的导航性能
引入了新的VLN-CE-Isaac基准,该基准在Isaac Sim中模拟详细的机器人关节运动和环境交互。
NaVILA在该基准上的表现优于仅依赖本体感受的策略,展示了其优越的障碍物避障能力。
真实世界评估
在真实世界中,NaVILA在三种环境(工作区、家庭和户外)中进行了实验,涵盖了简单和复杂的导航任务。
NaVILA在成功率(SR)和导航误差(NE)指标上均优于GPT-4o,证明了其在真实世界导航任务中的有效性。
总结
论文提出了NaVILA两级框架,结合了视觉语言模型(VLA)和运动技能,用于通用导航任务。
NaVILA通过生成基于语言的中间动作指令,并使用实时运动策略处理障碍物避让,提高了鲁棒性和灵活性。
实验结果表明,NaVILA在经典VLN基准测试中显著优于现有方法,并在真实世界中展示了强大的性能。