腿足机器人之十二-VLA视觉语言动作模型

shichaog

已于 2025-02-28 10:08:57 修改

阅读量1.2k

点赞数 30

分类专栏：腿足机器人文章标签：机器人

于 2025-02-23 20:15:13 首次发布

本文链接：https://blog.csdn.net/shichaog/article/details/145814625

版权

腿足机器人专栏收录该内容

14 篇文章

订阅专栏

腿足机器人之十二- manipulation

- VLA技术简介
- 开源的VLA

在上一章提到腿足机器人之十一- 深度强化学习，我们提到了腿足机器人的运动mobility和操作manipulation，前面的博客内容都是以mobility为主，2025年2月20日国外的 Figure公司发布了了Helix（A Vision-Language-Action Model for Generalist Humanoid Control）。

在这里插入图片描述
Figure的Helix report并没有透露过渡的技术细节，但是从上面的结构大致可以看出来在推理时的框架基本是：

# 伪代码示例：VLA动作生成流程
visual_feat = vision_encoder(rgb_image)          # 视觉特征提取
text_feat = language_model(instruction)          # 语言指令编码
fused_feat = cross_attention(visual_feat, text_feat)  # 多模态融合
action = policy_network(fused_feat, sensor_data)  # 生成关节动作
execute_action(action)

这么做的好处是增强了能力泛化，虽然helix公布时基于500小时训练数据的结构，但实际上VLA主要用于解决复杂环境下的自主导航、任务理解与动态动作生成的难题，其核心是通过多模态感知与推理，实现自然语言指令到物理动作的端到端映射。

VLA技术简介

传统控制方法无法直接理解人类模糊或复杂的指令（如 “去二楼查看是否有异常”），需依赖固定脚本，有了VLA，就可以通过视觉感知环境语义（如识别 “楼梯” 或 “坑洞”），结合语言指令（如 “上楼” 或 “绕过障碍”），生成适应地形的步态和路径规划。

多模态感知与对齐

视觉编码器：
使用 ViT 或 ResNet 提取环境特征（如地形高度图、障碍物位置）。
示例：从 RGB-D 图像中分割出可通行区域与危险区域（如波士顿动力 Spot 的视觉导航模块）。
语言编码器：
基于 LLM（如 LLaMA、GPT）解析指令语义（如 “绕过前方的箱子” → 目标点与避障逻辑）。
模态对齐：
通过对比学习或跨模态注意力（如 CLIP 风格预训练），对齐视觉特征与语言指令的语义空间。

动作生成与控制

强化学习（RL）策略：
将多模态特征输入策略网络，输出关节力矩或步态参数（如 MIT Cheetah 的 RL 控制框架）。
奖励函数设计：结合任务目标（如到达终点、开门、倒茶）与安全约束（如躯干平衡、能耗最小）。
分层控制架构：
高层规划：根据语言指令生成路径点（如 “去 A 点巡检” → 全局路径）。
底层控制器：基于视觉感知实时调整步态（如 ANYmal 的模型预测控制）。

动态适应与鲁棒性增强

世界模型（World Model）：
预测环境动态（如地面打滑概率），并提前规划安全动作（如 DeepMind 的 DreamerV3 在四足机器人中的应用）。
在线学习与微调：
在部署中持续更新模型参数，适应新场景（如 Meta 的 Adaptive Agent）。

挑战与未来方向

数据效率：需大量多模态机器人数据训练，仿真与真实数据迁移是关键。
安全性与可解释性：避免危险动作生成，确保决策过程透明（如可视化注意力机制）。
端到端优化：联合优化视觉 - 语言对齐与动作控制，避免模块间误差累积。

开源的VLA

Helix的System2模型是7B和openVLA的模型也是7B，看起来二者是有些关联的。

这里先临时做个框架性的介绍，后面再详细看具体细节，首先Vision-Language-Action (VLA) model 其实这两年都有研究，比较有影响力的paper是OpenVLA: An Open-Source Vision-Language-Action Model，其开源的github地址。
在这里插入图片描述
该模型想解决