- 博客(425)
- 收藏
- 关注
原创 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等(含模型架构、训练方法)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
22607
7
原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
49066
31
原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
423738
386
原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
223523
145
原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
775726
508
原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
928186
426
原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1539736
809
原创 RLT——VLA浓缩Token引导的在线RL:VLA提供感知与动作先验,轻量级Actor-Critic基于VLA浓缩Token在线快速微调,最终从粗到细搞定拧螺丝和充电器插入
摘要:本文提出了一种轻量级方法,通过RLtoken实现对预训练视觉-语言-动作模型(VLA)的高效在线强化学习微调。该方法使VLA输出紧凑的RLtoken表征,保留预训练知识的同时作为RL接口,在其上训练小型actor-critic网络进行动作精炼。实验表明,仅需几小时真实世界练习即可显著提升VLA在精确任务上的表现,解决了传统RL方法难以高效微调大规模VLA的问题,在保持模型泛化能力的同时实现了快速适应。
2026-03-26 11:44:34
601
原创 GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理去视频(与Fast-WAM类似)
本文提出GigaWorld-Policy,一种高效的以动作为中心的世界-动作模型。相比现有方法依赖显式视频生成导致高延迟和误差累积,该模型将未来视觉动态作为监督信号而非必要输出,在训练时联合优化动作预测和视觉动态预测,推理时可直接输出动作指令而无需生成视频。模型采用课程式训练流程,先通过大规模视频预训练获取物理先验,再在具身数据上微调,最后对齐目标机器人的控制接口。实验表明该方法在保证性能的同时显著降低计算开销,实现低延迟闭环控制。
2026-03-23 23:52:37
688
原创 Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪
摘要:本文提出Ψ0模型,一种面向人形机器人全身操控的视觉语言动作基础模型。该模型采用多阶段训练范式:首先在大规模人类第一视角视频(800小时)上预训练视觉语言模型,学习通用运动先验;随后在真实机器人数据(30小时)上训练基于流模型的动作专家,实现精确关节控制。模型采用三重架构:视觉语言骨干网络(System-2)提取特征,多模态扩散Transformer(System-1)预测动作,结合现成的RL控制器(System-0)实现43自由度全身控制。实验表明,该方法相比联合训练范式能更高效地从人类视频中迁移知识
2026-03-21 19:15:57
934
原创 HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整
摘要: 本文提出了一种双执行体的人类在环RL框架(HIL-DAFT),用于在双足人形机器人上部署视觉-语言-动作(VLA)模型与离线到在线强化学习(RL)的结合。该框架通过主执行体生成通用动作,精细化执行体在潜在噪声空间中进行细粒度调整,采用“对话与微调”机制将物理纠正转化为语义指令。实验表明,该方法在101分钟在线微调后实现了100%的子任务成功率,并在长时序操作中保持50%的完成率,展现了高效的样本适应性和多任务扩展潜力。
2026-03-15 00:24:12
978
原创 EgoScale——第一视角的2万小时人类标注数据扩展灵巧操作能力(提出人类数据下的缩放定律):先大规模人类预训练,再人机对齐,最后单条示范微调
摘要:EgoScale提出了一种基于大规模自中心人类数据的灵巧操作迁移框架。通过在20,854小时标注视频上训练视觉-语言-动作模型(规模超以往工作20倍),发现了人类数据规模与验证损失间的对数线性关系,该损失与机器人性能高度相关。采用两阶段迁移方案:先进行大规模人类预训练,再通过少量人机对齐数据实现迁移。实验表明,该方法仅需极少量机器人示范即可实现复杂操作,在折叠衬衫任务上达88%成功率,并能泛化至不同形态的机器人平台(如三指机械手),性能提升超30%。
2026-03-02 18:39:29
2701
原创 OmniRetarget——可与场景交互的人形全身行走-操控系统:实现26年春晚宇树攀爬、跳跃、翻滚、蹬墙翻转及箱体搬运
本文提出OmniRetarget系统,用于解决人形机器人全身控制中的数据瓶颈问题。该系统通过交互网格建模技术,将人类示范动作重定向到机器人形态,同时保持与场景的关键交互关系。相比现有方法,OmniRetarget采用约束优化确保物理可行性,避免了运动伪影,并能自动生成多样化训练样本。实验表明,基于该系统数据训练的策略在多种交互任务中表现优异,且能实现零样本仿真到真实的迁移。该系统为人形机器人自然行为学习提供了高质量的数据生成方案。
2026-03-01 22:56:41
1931
原创 DM0——面向物理AI的VLA:先VLM上混入物理数据做预训练,之后保持知识隔离的同时训练流匹配动作专家,最后做微调
本文提出DM0框架,一种原生视觉-语言-动作(VLA)模型,旨在解决现有"预训练-微调"范式在机器人控制中的局限性。该框架通过三阶段训练流程,整合视觉语言数据、驾驶场景和具身动作数据,构建统一表征。核心创新包括:(1)基于Qwen3-1.7B的视觉语言模型与流匹配动作专家组成的混合架构;(2)混合梯度训练策略,防止语义知识被侵蚀;(3)具身空间支架策略,生成空间推理链分解复杂指令。实验表明DM0在RoboChallenge基准上优于现有方法,实现了语义理解与物理操作的统一。
2026-02-25 00:09:17
2223
原创 X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成
摘要:本文提出X-VLA模型,通过SoftPrompt机制解决跨具身机器人学习中的异质性问题。该模型为不同数据源分配可学习嵌入,有效整合硬件配置差异,提升泛化能力。训练分两阶段:先在异构数据上预训练通用策略,再通过微调适配新具身形态。实验表明,X-VLA能在仅增加少量参数的情况下,显著提升模型对多样化机器人系统的适应能力,为具身智能的跨平台部署提供新思路。(149字)
2026-02-21 13:00:30
2450
1
原创 RL-100——基于真实世界RL的高性能灵巧操作:先基于人类演示做模仿学习预训练,再做迭代式离线RL,最后真机在线RL
本文提出RL-100框架,通过结合模仿学习与强化学习提升机器人操作性能。该方法包含三个阶段:首先基于人类示范数据进行模仿学习预训练;然后通过迭代式离线强化学习优化策略;最后进行针对性在线微调。关键创新在于采用统一的PPO目标函数贯穿扩散去噪过程,实现稳定更新。为满足实时需求,通过一致性蒸馏将多步扩散压缩为单步控制器。实验表明,该框架能有效利用人类先验并超越人类表现,支持多种输入表示和控制模式,在真实机器人操作任务中展现出高可靠性和鲁棒性。
2026-02-20 16:46:30
2830
原创 RISE——组合式世界模型驱动的RL框架:基于视频扩散模型预测的未来视觉状态,和VLA估计的进度价值评估,以先离线预热后在线改进
摘要: RISE提出了一种通过组合式世界模型实现机器人自我提升的强化学习框架。针对现有视觉-语言-动作模型在动态任务中的脆弱性,以及真实世界强化学习面临的安全和成本限制,RISE构建了包含动力学预测和价值评估的世界模型。该模型利用视频扩散技术预测多视角未来状态,并通过进度感知的价值函数评估动作优势,从而在想象空间中实现高效策略优化。实验表明,RISE在真实机器人任务中显著优于传统方法,同时避免了昂贵的物理试错过程。(149字)
2026-02-18 23:07:31
2275
原创 χ0——解决数据收集、模型训练、策略部署三者分布之间的不一致性:完成衣服的摊平、折叠、悬挂等多种任务
摘要:本文提出χ0框架,通过解决机器人操作中训练数据、模型归纳偏置与执行分布之间的系统性不一致性,实现高效可靠的长时间操作。该框架基于三大技术支柱:Model Arithmetic实现权重空间融合以吸收多样化示范分布;Stage Advantage提供阶段感知的稠密进度信号;Train-Deploy Alignment通过时空增强和时间分块平滑弥合分布差异。实验证明,χ0使双臂机器人能协同完成复杂服装操作任务,在保持资源效率的同时显著提升鲁棒性。
2026-02-17 23:58:20
2147
1
原创 GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA:通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略
摘要:本文提出GigaBrain-0.5M模型,通过世界模型增强的强化学习(RAMP)解决视觉-语言-动作(VLA)模型在长时程规划中的短视问题。该模型在GigaBrain-0.5M基础上,采用四阶段迭代训练:预训练世界模型预测未来状态和价值,微调策略生成动作,部署收集真实数据,并持续优化模型。相比π0.6的RECAP框架仅使用稀疏优势信号,RAMP利用世界模型提供更丰富的信息条件,理论上证明RECAP是RAMP的特例。实验表明该方法能有效提升VLA模型的前瞻性规划能力。
2026-02-16 12:11:48
2262
原创 GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力
摘要: GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,通过世界模型生成的合成数据克服真实机器人数据采集的成本和多样性限制。该模型整合RGB-D输入增强空间感知,并引入具身思维链(Embodied CoT)框架,模拟人类推理过程以提升长时程任务和精细动作的决策能力。采用混合Transformer架构(SigLIP视觉编码器+Diffusion Transformer动作生成)和知识隔离技术,解耦语义理解与连续动作学习,同时利用离散动作token加速训练。实验表明,GigaBrain-0在合成
2026-02-14 20:16:31
2174
原创 RDT2——基于UMI数据实现零样本且跨本体的泛化:先训练VLM、后训练扩散动作专家、最后将扩散策略蒸馏为一步生成器(挑战叠衣服)
本文探讨了视觉-语言-动作(VLA)模型在机器人领域的应用挑战与创新解决方案。当前VLA模型面临泛化能力不足、数据获取成本高、跨平台迁移困难等问题。研究团队提出RDT2模型,基于7B规模的Qwen2.5-VL预训练模型,采用三阶段训练策略:离散动作编码、连续概率建模和高效蒸馏。同时,通过改进UMI硬件系统收集了10,000+小时的多样化真实环境数据。这些创新旨在解决机器人学习中的关键难题,包括数据稀缺、模型效率和多平台适配问题,为构建具有广泛泛化能力的机器人基础模型提供了新思路。
2026-02-13 22:13:39
2867
原创 DreamZero——同时统一预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则理论强但具体操作不强的弊病,且提升任务泛化、本体泛化
最新的VLA模型在语义泛化方面表现出色,但在新环境中对未见过的物理动作的泛化却举步维艰。而本文要介绍的DreamZero,这是一种建立在预训练视频扩散骨干网络之上的世界动作模型(World Action Model,WAM)与VLA 不同,WAM 通过预测未来的世界状态和动作来学习物理动力学,并将视频作为世界演化方式的稠密表示
2026-02-08 17:16:32
2590
原创 MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应
本文提出MetaWorld框架,通过分层世界模型解决人形机器人语义控制与物理执行的鸿沟问题。框架包含:1)语义规划层,利用VLM将任务描述映射为专家策略权重;2)物理执行层,采用TD-MPC2算法进行在线优化。创新性地引入动态专家选择机制,在保持物理可行性的同时实现环境自适应。实验表明,该框架有效弥合了高层语义推理与低层控制之间的差距,显著提升复杂任务的执行能力。
2026-02-07 18:14:29
2733
原创 HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法
本文提出HumanoidPF方法,用于解决人形机器人在杂乱室内场景中的无碰撞穿越问题。该方法通过构建人工势场(Humanoid Potential Field)来编码机器人与障碍物的空间关系,为强化学习提供前瞻性指导。HumanoidPF既作为策略的观测信号,又简化了碰撞感知的奖励设计,显著提升了学习效率和泛化能力。作者还提出混合场景生成策略,通过程序化增强真实场景数据来扩展训练难度。实验表明,该方法在仿真和真实环境中均表现出色,并成功应用于远程操作系统Click-and-Traverse。相比现有工作,H
2026-02-01 23:30:55
3093
4
原创 InternVLA-A1——面向场景理解、未来状态生成、动作执行的一体化框架:融合VLM的语义理解与世界模型的未来动态预测
InternVLA-A1。该模型采用统一的 Mixture-of-Transformers 架构,协同三个专家模块,分别负责场景理解、视觉前瞻生成和动作执行。这些组件通过统一的掩码自注意力机制实现无缝交互
2026-01-22 23:12:29
2961
2
原创 DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹
本文提出DualVLN,首个双系统视觉语言导航基础模型,将高层推理与实时控制解耦。System2作为大型VLM进行鲁棒推理并生成像素级目标,System1作为轻量级扩散策略模型将目标转换为连续轨迹。通过潜在表示连接两个系统,System2先训练后冻结,System1通过潜在查询提取特征。这种设计使System2能利用大规模数据扩展,System1专注于高频控制。实验表明该方法在动态环境中实现了精确规划和高效避障,优于现有模块化和端到端方法。
2026-01-19 18:48:45
3627
原创 NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹:一方面模仿专家,一方面被做价值评估预测」,到含仅使用RGB的点目标导航
NavDP论文解读:基于仿真数据的导航扩散策略 摘要:本文介绍了NavDP框架,一种利用仿真数据实现零样本跨形体泛化的视觉导航方法。该框架结合了模仿学习的高效性和扩散模型的表达能力,通过Transformer架构同时支持轨迹生成和评估预测。创新点包括:1)利用仿真特权信息(全局规划器和ESDF)指导训练;2)开发高效数据引擎,单GPU日生成2500条轨迹;3)构建超百万米导航里程的多样化数据集。实验表明,NavDP能有效缩小仿真与现实差距,在跨载体适应和多任务泛化方面展现出显著优势。
2026-01-14 00:06:39
3722
原创 StageACT——基于CVAE的多阶段ACT:把开门任务分为五个阶段,且做好分段标注以引导低层策略逐一执行
本文提出StageACT框架,通过阶段条件化模仿学习解决人形机器人开门任务中的长时程、部分可观测挑战。作者发现将任务分解为五个自然阶段(寻找把手、接近把手等)并显式标注阶段标签,能有效消除视觉歧义并实现失败恢复。该方法基于ACT架构,采用CVAE结构生成动作序列,并通过阶段条件向量为策略提供时间上下文。实验表明,该框架仅需135次人类示范即可实现完全自主的行走-开门操作,无需外部感知或门的先验信息,显著优于标准行为克隆方法。研究首次展示了人形机器人自主开门能力,为富接触任务提供了新思路。
2026-01-13 00:47:03
3375
原创 DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real,最后仅靠视觉打开会议室的门,给客户递杯水(可额外探索教师策略未演示的行为)
本文要介绍的DoorMan的目标是构建一条具有良好泛化能力的、基于视觉的人形机器人行走—操作一体化学习流程,并以开门这一具有挑战性的真实场景任务作为代表性案例
2026-01-12 00:10:25
3495
原创 GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术
本文介绍GraspVLA系统,这是一个利用合成数据训练视觉-语言-动作(VLA)模型的新方法。研究者构建了十亿规模的SynGrasp-1B数据集,包含240类物体的抓取数据,并提出了渐进式动作生成(PAG)机制,将感知任务整合到动作生成的思维链中。该系统在互联网数据和合成数据上联合训练,实现了从仿真到现实的直接迁移,在透明物体抓取等任务上表现优异。实验表明,GraspVLA支持自然语言指令,具有开放词汇抓取能力,并能适应特定应用场景需求。
2026-01-06 23:36:00
3727
2
原创 DuoCore-WB——视觉驱动的全身行走-操作:让轮式人形自主开门后给会议室的客户递杯水
今年第一季度,在既定的几个双足人形项目之外,我司会重点做几个轮式人形的项目,轮式品牌包括且不限于智元G2、睿尔曼、星尘智能、千寻毕竟对于「干活」本身而言,让轮式人形干活的难度,要比让双足人形干活的难度低
2026-01-05 17:00:50
3224
原创 PI发布的Human to Robot数采工作——头戴iPhone且手戴两相机采集数据:混合数据中像“用机器人数据一样”用人类数据,而无需显式对齐
摘要:本文探讨如何利用人类视频数据训练通用机器人策略,提出通过多样化VLA预训练实现人机动作自然对齐的方法。研究发现,随着预训练数据多样性的提升,模型能形成与具身形式无关的表征,实现跨形体技能迁移。具体方案包括:采用头戴/腕部摄像机采集人类动作数据,通过3D手部轨迹预测末端执行器动作,结合子任务语言标注进行联合训练。相比传统需要显式对齐的方法,该方案更具通用性,为具身智能的工业落地提供了新思路,特别适用于多任务场景的规模化应用。
2026-01-03 23:32:37
3472
原创 Act2Goal——基于世界模型生成未来视觉轨迹以指导低层运动控制:通过MSTH将轨迹分解为近端和远端帧,且基于HER实现无需外部奖励的在线自主改进
摘要:本文介绍了智元团队2025年底发布的Act2Goal框架,该研究将目标条件世界模型与多尺度时间哈希机制结合,解决了长时程任务中的泛化难题。通过分解视觉轨迹为近端控制帧和远端规划帧,实现了全局一致性与局部响应性的平衡。框架支持基于Hindsight Experience Replay的无监督在线改进,采用LoRA微调实现快速适应。相比传统方法,Act2Goal通过显式建模视觉动态过程,为机器人控制提供了结构化中间指导,在保持闭环执行鲁棒性的同时,显著提升了长时域操作的泛化能力。
2026-01-01 22:46:08
3259
1
原创 Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪
本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。
2025-12-29 19:03:03
3084
1
原创 HEAD——视觉驱动下的自主配送(本质是VLN):高层规划器发出手部和眼部的目标位置与朝向指令,低层全身控制策略则执行导航与触达,暂无法抓取
斯坦福研究者提出HEAD系统,实现人形机器人自主导航与触达功能。该系统采用模块化设计,高层策略负责视觉导航和手眼协调,低层控制器基于模仿学习实现全身运动控制。创新性地结合大规模人类数据与少量机器人数据训练,通过GAN强化学习方法解决动作模仿挑战,并采用域随机化增强系统鲁棒性。该工作首次实现人形机器人基于自我中心视觉的端到端导航与触达能力,为类人机器人应用提供了新思路。
2025-12-26 00:31:05
3754
原创 WholeBodyVLA——全身行走-操作控制的统一潜在VLA:基于从无标注视频中学习行走/操作的LAM,和专门面向loco–mani的RL策略LMO,让智元灵犀X2稳定搬箱子
《WholeBodyVLA:面向人形机器人的行走-操作统一框架》摘要 本文提出WholeBodyVLA框架,解决人形机器人行走-操作任务中的关键挑战。通过统一潜在学习(unified latent learning)方法,分别训练行走和操作的潜在动作模型(LAM),从人类视频中获取先验知识,并联合监督视觉语言动作(VLA)模型。针对底层控制问题,设计了面向行走-操作的强化学习策略(LMO),采用离散指令接口替代传统速度跟踪,通过两阶段训练提升运动精度和稳定性。实验表明,该框架能实现大空间环境中的端到端行走-
2025-12-24 17:53:19
3480
1
原创 SONIC——面向人形全身控制的通用追踪器:统一的通用token空间下支持多种运动输入接口,且可集成VLA来驱动行走-操作(VLA做大脑,SONIC负责执行)
摘要:SONIC是一个通用的人形机器人运动控制框架,通过统一控制策略实现多样化运动指令追踪。其核心创新在于采用共享潜在表示,支持机器人运动、人类运动及混合运动的无缝处理。系统支持多模态输入(视频、文本、音乐、VR)和多种控制方式(全身遥操作、三点式遥操作、VLA自主控制),在"苹果到盘子"任务中达到95%成功率。基于700小时人体运动数据训练,采用PPO算法和域随机化增强鲁棒性。通过编码器-解码器架构实现跨形体学习,为VLA驱动的移动操作任务提供了可行方案。
2025-12-22 21:32:46
3644
原创 CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性
本文提出CHIP方法,通过事后扰动(Hindsight Perturbation)实现人形机器人的自适应柔顺控制。该方法在不修改参考轨迹和奖励函数的前提下,仅通过调整输入观测值来训练策略,使机器人既能保持运动敏捷性,又能对外力作出柔顺响应。相比传统方法需要大量合成数据或离线运动编辑,CHIP可直接集成到现有运动跟踪框架中。实验证明该方法能同时完成擦拭、推车等需要力控制的任务,以及舞蹈、跑步等敏捷运动,并支持多机器人协同操作。
2025-12-20 22:37:03
3845
原创 Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持标准CQL已做到的相对保守),但保守得有底线(不能过分保守)
本文探讨了Cal-QL算法在离线强化学习预训练和在线微调中的应用。该算法通过校准Q值,解决了传统方法中因保守性导致Q值被过度压低的问题。Cal-QL确保学到的Q值既作为最优策略的下界,又作为行为策略的上界,避免在线微调初期出现"遗忘"现象。相比现有方法,Cal-QL能更好地保留离线策略的优势,同时在在线阶段实现高效学习。这种校准方法显著提升了从离线预训练到在线微调的过渡效率,为强化学习提供了一种更稳定的训练范式。
2025-12-16 19:06:50
3513
原创 PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中
《PLD:基于残差强化学习的VLA模型自我改进方法》摘要 本文提出PLD(Policy Learning with Distillation)方法,通过三阶段流程实现视觉-语言-动作(VLA)模型的自我改进。针对高质量机器人数据获取困难、远程操作示范与真实状态分布不匹配等问题,PLD首先冻结VLA主干,利用样本高效的离线策略RL训练轻量级残差actor;然后采用混合rollout方案收集数据,既保留基础策略访问状态又捕获恢复行为;最后通过监督微调将多任务数据蒸馏回基础模型。该方法在LIBERO基准上实现了超
2025-12-15 23:38:47
3430
1
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅