今天我们探讨:如何将DeepSeek的成功经验迁移至视觉-语言-动作(VLA)模型。
众所周知,在自然语言处理领域,DeepSeek R1的横空出世,揭示了强化学习(RL)在大模型后训练中的革命性潜力。R1仅用传统方法1/3的计算资源,便实现了与GPT-4o相媲美的多步推理能力。
其核心在于:
-
冷启动自进化:摒弃监督微调(SFT)依赖,通过纯RL训练生成初始推理链,利用GRPO算法降低训练成本;
-
结构化奖励系统:融合准确性奖励(基于规则验证答案正确性)、格式一致性奖励(强制CoT逻辑分段)、语言一致性奖励(抑制多语言混杂),精准引导模型输出;
-
迭代式自我提升:通过3轮RL训练,逐步引入拒绝采样筛选高质量轨迹,并蒸馏至通用任务,实现推理能力与泛化性的平衡。
这一范式证明,RL不仅能优化文本生成的对齐性,更可系统性提升复杂推理能力。
但,当我们将目光转向具身智能领域,挑战陡然升级——机器人需在物理世界中实时交互,其动作空间连续、奖励信号稀疏、安全约束严苛。
那么,如何将DeepSeek的成功经验迁移至视觉-语言-动作(VLA)模型?
答案指向两条创新路径:冻结式参数优化与自动化偏好对齐。
本文将选取两篇代表性文章:iRe-VLA 和 GRAPE,详细介绍其中的 VLA 模型,看看这两条创新路径是如何实现的。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?(文末,可以免费来参观各家机器人实机!)
欢迎关注【深蓝具身智能】👇
iRe-VLA :冻结式参数优化
首先是清华大学交叉信息研究院陈建宇老师团队,在实现“冻结式参数优化”方向上的工作。
在大型语言模型(LLM)和视觉语言模型(VLM)的微调领域,监督微调(SFT)因其稳定性和可扩展性成为主流方法。
然而,此前的方法存在显著局限性:
首先,SFT高度依赖高质量的专家数据集,这在机器人领域尤为突出——与语言模型可获取海量互联网数据不同,机器人领域的高质量示范数据采集成本高昂且难度较大;
其次,由于分布偏移现象,基于SFT的监督学习范式难以确保VLA模型与动态物理环境的完全对齐。
▲图1 | 用 LLMs 的微调来增强机器人VLA
为解决上述问题,清华大学研究团队探索了强化学习(RL)这一大模型微调技术。
受RLHF(基于人类反馈的强化学习)启发,尝试通过在线RL优化VLA模型,以增强其与物理环境的对齐能力。
然而,机器人任务具有长周期性和稀疏奖励的特点,同时现有研究表明:
-
当在线RL应用于大规模神经网络时,不仅训练过程极不稳定,模型性能还可能显著下降(如图1右侧所示)。
-
完整的在线RL训练对计算资源的需求往往超出普通本地机器的承载能力。
针对这些挑战,研究团队提出了创新的iRe-VLA框架。
该框架通过在强化学习和监督学习之间建立迭代优化机制,既保留了RL的探索优势,又维持了监督学习的稳定性。
具体实现包含两个关键阶段:
▲图2 | VLM在探索阶段被冻结以稳定训练,在SL阶段可训练以充分利用预训练VLM的潜力
1. 在线RL阶段:冻结VLM参数,仅训练轻量级动作头。
这种设计不仅避免了模型崩溃风险,还显著提升了训练效率。值得注意的是,该方法的关键创新在于:预训练阶段无需VLM与动作头联动,而是通过将语言隐空间与动作隐空间对齐来实现无缝适配。
2. 监督微调阶段:基于成功轨迹进行全参数微调。
这一步骤充分发挥了VLM的表达能力,通过联合微调激发模型在机器人控制任务中的性能潜力。
▲图3 | 真实世界实验
在具体实现上,研究团队采用BLIP-2 3B模型作为VLM主干。
由于预训练VLM输出为文本token,专门设计了用于生成低级控制动作(包括末端执行器位姿和夹爪状态变化)的动作头。借鉴先前VLA研究经验,将VLM的全连接层替换为初始化动作头,并采用LoRA进行参数高效微调,总可训练参数包含LoRA参数 θ 和动作头参数 ϕ。
▲图4 | 在三个领域进行实验。每个领域包含三个类别:专家数据集中观察到的任务、利用强化学习的新任务和保留未观察到的任务。
这种方法的另一个重要优势体现在灾难性遗忘问题的解决上:当智能体学习新任务时,通过将新收集的在线数据与原始专家数据集共同用于监督训练,有效保持了模型在已学习任务上的性能。
通过这种阶段1(探索新任务)和阶段2(巩固已学任务)的交替优化,VLA模型能够逐步扩展其任务解决能力,同时避免性能退化。
▲图5 | VLA模型的选代RL(iRe-VLA)
阶段0:在专家数据集上的有监督学习
首先在专家机器人数据集 ₁₁₁₂₂₂ᵢᵢᵢ上,对VLA模型 πθ 进行标准的有监督微调。形式上,其学习目标定义为均方误差(MSE)损失函数:
₀θϕπθϕ²₂
经过有监督微调后,得到初始的VLA模型πθϕ。其性能高度依赖于专家数据集的规模与质量。接下来,通过在线强化学习来进一步提升πθϕ的性能。
阶段1:冻结VLM参数的在线强化学习
虽然SFT模型πθϕ在新任务上可能无法达到最优性能,但由于它已在多个机器人任务上训练过,仍然是一个有价值的起点。为提升该策略的表现,我们使用在线强化学习进行训练。
在此过程中,我们引入一个critic head,其结构与action head相似,但输出维度为1。为了防止模型崩溃并加速训练过程,我们在该阶段冻结VLM的参数 θ,仅优化动作头的参数 ϕ,其优化目标为:
₁ϕ₀₀₀₁₁₁ϕₜγᵗₜₜ
通过在线强化学习,机器人可以发现解决新任务的新轨迹ᵢ,并将这些成功轨迹加入在线数据集
ᵢ
阶段2:在专家数据和在线数据上的有监督学习
在阶段1中,智能体在新任务上执行强化学习时,可能会遗忘之前学过的任务。为防止灾难性遗忘,我们在阶段2中使用专家数据集和新收集的在线数据集共同对整个模型进行有监督训练。
其优化目标为:
₂θϕπθϕ²₂
如前所述,阶段1使智能体探索新任务的解法,而阶段2则模仿所有成功的轨迹。
通过在阶段1与阶段2之间反复交替训练,大规模的VLA模型可以逐步解决更广泛的任务,并避免在已学任务上出现遗忘。
▲图5 | 在Metaworld和Franka-kitchen基准上的成功率,分为三类任务(蓝色为专家任务,绿色为RL训练任务,红色为未见过的任务)
实验结果表明,iRe-VLA框架显著优于传统PPO算法和纯监督学习,主要体现在三个方面:
-
原始任务性能提升:通过在线交互优化,iRe-VLA在专家任务(如"左开门")上的成功率从0.43提升至0.83,弥补了专家数据不足的缺陷。
-
新任务适应能力:在专家数据未覆盖的强化学习任务中,模型能自主解决新任务且避免灾难性遗忘。
-
泛化能力增强:训练后模型在未见任务(如不同颜色/形状的窗口操作)中表现更优,表明迭代学习能系统性提升泛化性。
针对iRe-VLA框架,通过迭代式强化学习(RL)与监督学习(SFT)的交替优化,解决了视觉语言动作模型(VLA)在机器人领域的微调难题。传统SFT依赖稀缺且高成本的专家数据,且难以适应动态环境;而直接在线RL则因训练不稳定、计算开销大易导致性能崩溃。
iRe-VLA的创新在于三阶段循环:
(1)先用专家数据预训练VLA模型;
(2)在线RL阶段冻结视觉语言模型(VLM),仅训练轻量级动作头,高效探索新任务并收集成功轨迹;
(3)混合新旧数据全参数微调,避免灾难性遗忘。
关键设计包括隐空间对齐实现VLM与动作头无缝适配、LoRA参数高效微调,以及交替执行RL探索与SFT巩固,既保留RL的环境适应能力,又维持SFT的稳定性。
GRAPE:自动化偏好对齐
接下来是来自华盛顿大学等研究团队提出的GRAPE(Generalizing Robot Policy via Preference Alignment),在实现“自动化偏好对齐”上的工作。
▲图6 | 真实世界任务演示
通过偏好对齐来泛化机器人策略,以减轻使用强化学习目标训练VLA的高成本,同时提供灵活性以实现定制化操控目标的对齐。
问题背景与核心挑战
传统VLA的局限:
-
泛化性不足:依赖专家数据集(SFT)的模仿学习,难以应对新物体、新环境或语义变化;
-
次优轨迹生成:专家数据隐含多目标冲突(如任务完成度、安全性、效率),直接模仿易导致策略混淆;
-
奖励设计困难:复杂任务的奖励函数需人工设计,成本高且难以覆盖动态场景。
GRAPE的目标:
-
无奖励建模的强化学习:通过轨迹偏好对比,绕过显式奖励函数设计;
-
多目标灵活对齐:支持用户自定义目标(如“避障优先”“路径最短”);
-
自动化偏好生成:利用大模型(VLM/LLM)降低人工标注成本。
方法框架
▲图7 | GRAPE首先使用VLM将操作任务(顶部)分解为时间阶段,并确定每个子任务的关键空间点。给定用户指定的对齐目标,它会提示VLM为每个阶段生成成本函数。在迭代偏好优化(底部)期间,从基本VLA模型中采样离线轨迹,使用多阶段成本、自我评估和任务成功指标进行评分,并排序形成偏好。GRAPE然后迭代优化VLA模型,直到收敛。
其核心流程如下:
(1)轨迹采样与偏好生成
从初始监督微调(SFT)策略中采样多条轨迹,利用视觉语言模型(VLM)将任务分解为时序阶段(如抓取、移动、放置),并通过视觉模型(DINOv2/SAM)提取各阶段空间关键点(如物体抓取位置、障碍物边界)。
调用大模型(如GPT-4o)为每个阶段生成定制化成本函数(如碰撞距离、路径效率),结合策略自评估(轨迹生成概率)和任务成功标志,计算轨迹综合得分。
根据得分排序生成偏好对(优选轨迹与劣选轨迹),构建偏好数据集。
(2)轨迹偏好优化(TPO)
采用对比学习机制优化策略:通过最大化优选轨迹与劣选轨迹的似然差异,调整策略参数。
引入参考策略约束(初始SFT模型),限制优化幅度以避免策略崩溃,确保训练稳定性。
(3)迭代优化与自适应对齐
重复采样、评分、微调流程,逐步提升策略对齐多目标(如安全、效率)的能力。
在多阶段任务中,通过指数衰减聚合阶段成本,强化因果依赖(如早期阶段高成本将降低整体评分)。
技术优势
-
自动化偏好生成:依赖大模型生成阶段成本,减少人工设计依赖;
-
灵活目标配置:支持动态调整成本权重(如工厂场景中安全性权重更高);
-
兼容性:适配离散动作(Open-VLA)与连续动作(扩散策略)模型。
关键案例的研究进一步验证了GRAPE框架的灵活对齐能力:在安全关键的物体抓取任务中(障碍物位于物体与目标之间),实验对比显示:
(1)未对齐的OpenVLA-SFT完全无法完成任务;
(2)仅任务对齐的GRAPE虽成功抓取放置,但会碰撞障碍物(因策略优先任务成功率而忽略安全性);
(3)安全对齐的GRAPE-safety在保持高效任务完成的同时主动避障。
关键结论:通过调整成本函数,GRAPE可灵活适配不同目标(如任务效率或安全性)。这一结果凸显了目标导向的奖励设计在VLA模型对齐中的核心作用。
GRAPE是一个用大模型教机器人"看脸色"的强化学习新方法,传统机器人训练需要人工设计复杂的奖励函数,费时费力。GRAPE创新地利用VLM/LLM作为"智能裁判":
(1)自动分解任务并评估轨迹质量(如"抓杯子要避开把手");
(2)生成偏好数据来优化策略,支持滑动调节"安全/效率"等目标权重;
(3)通过参考策略约束防止训练跑偏。
其优势在于让大模型承担奖励设计工作(如GPT-4生成精细的成本函数),既降低人工成本,又实现多目标灵活适配,使机器人从机械执行升级为"察言观色"的智能体。
总结
尽管场景迥异,但综合两篇标志性成果来看,DeepSeek R1 与 VLA 模型的RL 微调共享三大核心原则:
(1)参数高效性:通过冻结主干(VLM/LLM)、局部微调(LoRA适配器/动作头),平衡计算开销与模型能力;
(2)奖励自动化:摒弃人工设计奖励函数,依赖AI生成结构化评估(DeepSeek的格式验证、GRAPE的阶段成本),提升泛化性与可扩展性;
(3)防遗忘机制:采用混合数据回放(iRe-VLA)、迭代偏好蒸馏(GRAPE),确保新旧任务知识共存,避免“学新忘旧”。
DeepSeek R1与VLA模型的实践,标志着RL正从“语言推理优化器”向“物理交互控制器”进化。
二者的共性启示在于:
RL的本质是试错中进化,而进化的效率取决于奖励信号的抽象粒度——无论是文本CoT的步骤验证,还是机械臂轨迹的阶段成本,皆需将复杂目标拆解为可量化的子模块。
随着多模态奖励模型与仿真训练平台的发展,一个更普适的法则正在浮现:大模型的“思维链”终将延伸为机器人的“动作链”,而RL正是连接二者的无形纽带。
同时,我们也在思考,深蓝具身智能账号正式运营至今,在不到半年的时间,粉丝量便已达到了近1.2万人(非常感谢各界朋友的认可与关注),此期间得到了很多朋友的支持鼓励,以及各种有趣的、广泛的问题探讨。
当然,也收到了很多很不错的提议。 我们也在思考,能否做更多的“纽带作用”?
所以,我们决定开放2个“有趣”的交流活动
【深蓝学院企业开放日】-参观机器人:
近期机器人、机器狗、无人机等刚好都有一些硬件入场了深蓝学院,因此我们决定开展企业开放日,让感兴趣的朋友可以来学院参观,并近距离接触实体。(免费)
学院有包括:宇树G1、智元X1、云深处四足机器人、光子RC- L1无人机、从0-1手搓无人机的实体机、无人车……(部分见下图)
深蓝学院实拍:
欢迎各位粉丝朋友,加入深蓝具身君的读者群,具体参观开放日时间将在群内陆续通知。
【城市巡回·技术交流会】-与大咖对谈:
除此之外,我们还希望:拆掉讲台,把圆桌变为技术风暴的中心。
因此,我们还发起了城市沙龙,并邀请各个城市不同“大咖”参与其中,面对面分享交流,该沙龙将在多个城市巡回举办。
(由于举办这类技术交流,涉及到一定的成本,所以目前仅面向深蓝学院星友免费开放。)
非星友,可以先扫描下方右方二维码,成为星友。目前99元/年,可多次参与(非常划算)。
我们的活动主旨:自由、纯粹、高能!加入后,还能获取丰富的线上学习资料、资讯、各类招聘机会等。