VLA/VLM在具身智能中的应用:近期佳作赏析

Being-0:具备视觉语言模型与模块化技能的人形机器人代理

论文信息

  • 标题:Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

  • 项目地址:https://beingbeyond.github.io/being-0/

摘要

​ 构建能在现实具身任务中达到人类水平的人形自主代理,是人形机器人研究的终极目标。当前基础模型(FMs)的高层认知能力与人形机器人底层技能开发均取得显著进展,但直接组合这些组件常因长周期任务的误差累积及各模块延迟差异导致鲁棒性与效率低下。我们提出Being-0分层代理框架,通过轻量级视觉语言模型(VLM)驱动的连接器模块,将基础模型的语言规划转化为可执行技能指令,并动态协调运动与操作。除基础模型外,所有组件均可部署在低成本嵌入式设备上,使配备灵巧手部与主动视觉的全尺寸人形机器人实现高效实时性能。大型室内环境实验表明,Being-0能有效完成需要复杂导航与操作子任务的长周期任务。

算法框架与部分实验

  • 算法框架

​ 该人形代理框架包含三个核心组件:(1)用于高层任务规划与推理的基础模型(FM);(2)连接器——作为衔接基础模型与底层技能的视觉语言模型(VLM);(3)提供稳定运动与灵巧操作的模块化技能库。这些组件使Being-0能有效控制配备多指手部与主动视觉的全尺寸人形机器人,在真实环境中完成复杂的长周期具身任务。

img

Overview of the Being-0 framework.

  • 部分实验结果

img

Being-0执行"泡咖啡"任务流程图。该图分两行展示任务分步执行过程,首行从左至右执行后,次行继续从左至右执行。黄框图像标示基础模型(FM)决策点:黄色对话框显示FM计划,绿色框为连接器决策,蓝色框代表从模块化技能库调用的技能。

img

使用/未使用Connector模块时Being-0在不同长周期任务中的完成率对比。结果显示使用Connector后性能显著提升。

img

不同场景配置下的操作技能表现,包括已知物体、未知物体及存在视觉干扰的情况。*表示使用配备触觉传感器的灵巧手。

总结

​ 本研究提出人形机器人分层智能体框架Being-0,通过控制配备灵巧双手和主动视觉的人形机器人来解决长周期具身任务。基于VLM的新型连接器模块有效弥合了高层基础模型与底层技能间的鸿沟,显著提升了人形智能体的性能和效率。大量现实实验证明Being-0在导航、操作和长周期任务解决方面具有强大能力。结果凸显了所提连接器、导航与操作协调调整方法以及主动视觉应用的有效性。

​ 尽管取得这些进展,当前系统尚未整合蹲坐、跳跃等复杂运动技能。这些技能可拓展人形机器人在平地环境外的功能,实现爬楼梯、坐姿作业或不同高度物体操作等任务。增强这些能力将是未来工作的重要方向。此外,虽然机载系统高效,Being-0仍依赖速度较慢的基础模型进行高层决策。未来研究可探索专为机器人应用定制的轻量化基础模型,以进一步提升系统效率。

MoManipVLA:面向通用移动操作任务的视觉-语言-动作模型迁移方法

论文信息

  • 标题:MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation

  • 项目地址:https://gary3410.github.io/momanipVLA/

摘要

​ 移动操作是机器人协助人类完成日常生活多样化任务的基础性挑战。传统方法因缺乏大规模训练数据,常难以实现跨任务与环境的泛化。而近期视觉-语言-动作(VLA)模型虽展现出强大的泛化能力,却仅适用于固定基座操作任务。为此,我们提出MoManipVLA高效策略适配框架,将预训练VLA模型迁移至移动操作领域,实现策略的跨场景泛化。具体而言:1)利用预训练VLA模型生成具有高泛化能力的末端执行器路径点;2)设计考虑物理可行性的移动底盘与机械臂运动规划目标;3)建立双层目标优化框架,上层优化预测底盘位移以扩展操作策略空间,下层优化选择最优末端轨迹完成任务。实验表明,MoManipVLA在OVMM数据集和真实场景中成功率较现有技术提升4.2%,且受益于VLA模型的强泛化能力,实际部署仅需50次训练成本。

算法框架与部分实验

  • 算法框架

​ 下图展示了MoManipVLA的整体流程:首先使用预训练VLA模型基于观测和人类指令生成最优末端执行器路径点;为实现目标路径点,我们联合生成物理可行性最高的底盘与机械臂轨迹;设计包含安全性、平滑性和可达性的运动规划目标;采用双层目标优化框架高效求解轨迹——上层优化预测底盘运动路径点以扩展后续操控策略空间,下层优化选择最优末端执行器轨迹实现VLA模型生成的路径点。该运动规划框架能以可忽略的训练成本,将预训练固定基座策略高效适配至移动操控。

img

The pipeline of MoManipVLA.

  • 部分实验结果

img

OVMM基准测试对比结果,其中部分成功率反映各阶段执行情况。遵循OVMM设置,采用基线导航与视觉模型定位目标物体,通过替换抓放策略来验证本方法对移动操作的有效性。

img

真实世界实验结果。每项任务测试10次。

总结

​ 本文提出将预训练VLA模型泛化至移动操作任务的高效策略迁移框架:先通过固定基座VLA模型预测末端路径点,再生成满足最大物理可行性的移动基座与机械臂轨迹。通过设计包含末端可达性、轨迹平滑度与避碰的目标函数,采用高效双层优化框架联合搜索基座与机械臂最优轨迹位姿。大量实验证明本方法在仿真与真实任务中的强大泛化能力。局限在于:1)依赖VLA模型性能且仅适用于强约束运动空间;2)缺乏任务规划模块难以处理长时程任务。设计更高效轨迹生成框架并整合基础模型的任务规划将是未来方向。

VLAS:支持语音指令的视觉-语言-动作模型在定制化机器人操控中的应用

论文信息

  • 标题:VLAS: VISION-LANGUAGE-ACTION MODEL WITH SPEECH INSTRUCTIONS FOR CUSTOMIZED ROBOT MANIPULATION

  • 项目地址:https://github.com/whichwhichgone/VLAS

摘要

​ 视觉-语言-动作模型(VLA)因其端到端设计和卓越性能,在机器人操控领域日益受到关注。然而现有VLA过度依赖仅支持文本指令的视觉-语言模型(VLM),忽视了更自然的人机交互语音模态。传统语音集成方法通常需要独立的语音识别系统,这增加了模型复杂度并导致错误传播。此外,转写过程会丢失原始语音中的非语义信息(如声纹),而这些信息对机器人完成定制化任务可能至关重要。为突破这些限制,我们提出VLAS——一种将语音识别直接集成到机器人策略模型的新型端到端VLA。该模型通过内部语音-文本对齐理解语音指令,并生成相应动作完成任务。我们还开发了SQA和CSI两个新数据集,支持语音指令的三阶段调优过程,使VLAS具备跨文本、图像、语音和机器人动作的多模态交互能力。更进一步,我们设计了语音检索增强生成(RAG)范式,使模型能有效处理需要个体特定知识的任务。大量实验表明,VLAS能成功执行多样化语音指令的机器人操控任务,提供无缝的定制化交互体验。

算法框架与部分实验

  • 算法框架

​ 系统通过编码器和MLP层对视觉与语音输入进行编码获取对应嵌入表示。语音RAG模块基于说话人识别检索个性化知识,并使用文本标记器转化为嵌入。所有嵌入经LLaMA处理生成动作标记,最终反标记化为连续值控制机器人运动。

img

Overall Framework of VLAS.

  • 部分实验结果

img

不同机器人策略模型在CALVIN基准上的表现。+:使用真实文本指令评估。∗:使用语音指令评估。本基准测试中VLAS未启用Voice RAG模块获取定制知识。

img

在多模态评估基准上,最先进视觉语言模型与VLAS-Base的性能对比。

总结

​ 本文提出了一种端到端的机器人操作视觉语言模型,能够在不依赖外部语音识别系统的情况下理解语音指令。由于直接将原始语音作为模型输入,可以充分利用语音中的声纹等辅助信息来更有效地完成任务。特别地,我们为模型引入了语音检索增强生成(Voice RAG)方法,以提升其在处理需要大量个性化知识的语音指令时的表现。因此,VLAS整合语音模态数据不仅简化了机器人控制的整体流程,还使机器人能够处理各种定制化任务。未来工作将探索利用人类语音或环境声音中的其他辅助信息,使机器人能更好地理解并完成复杂任务。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值