- 博客(398)
- 资源 (43)
- 收藏
- 关注
原创 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等(含模型架构、训练方法)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
20755
6
原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
44335
26
原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
404806
376
原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
221479
144
原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
774100
507
原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
921797
423
原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1537575
809
原创 HEAD——视觉驱动下的自主配送:高层规划器发出手部和眼部的目标位置与朝向指令,低层全身控制策略则执行导航与抓取
斯坦福研究者提出HEAD系统,实现人形机器人自主导航与触达功能。该系统采用模块化设计,高层策略负责视觉导航和手眼协调,低层控制器基于模仿学习实现全身运动控制。创新性地结合大规模人类数据与少量机器人数据训练,通过GAN强化学习方法解决动作模仿挑战,并采用域随机化增强系统鲁棒性。该工作首次实现人形机器人基于自我中心视觉的端到端导航与触达能力,为类人机器人应用提供了新思路。
2025-12-26 00:31:05
663
原创 WholeBodyVLA——全身行走-操作控制的统一潜在VLA:基于从无标注视频中学习行走/操作的LAM,和专门面向loco–mani的RL策略LMO,让智元灵犀X2稳定搬箱子
《WholeBodyVLA:面向人形机器人的行走-操作统一框架》摘要 本文提出WholeBodyVLA框架,解决人形机器人行走-操作任务中的关键挑战。通过统一潜在学习(unified latent learning)方法,分别训练行走和操作的潜在动作模型(LAM),从人类视频中获取先验知识,并联合监督视觉语言动作(VLA)模型。针对底层控制问题,设计了面向行走-操作的强化学习策略(LMO),采用离散指令接口替代传统速度跟踪,通过两阶段训练提升运动精度和稳定性。实验表明,该框架能实现大空间环境中的端到端行走-
2025-12-24 17:53:19
681
原创 SONIC——面向人形全身控制的通用追踪器:可集成VLA来驱动行走-操作(VLA做大脑,SONIC负责执行)
摘要:SONIC是一个通用的人形机器人运动控制框架,通过统一控制策略实现多样化运动指令追踪。其核心创新在于采用共享潜在表示,支持机器人运动、人类运动及混合运动的无缝处理。系统支持多模态输入(视频、文本、音乐、VR)和多种控制方式(全身遥操作、三点式遥操作、VLA自主控制),在"苹果到盘子"任务中达到95%成功率。基于700小时人体运动数据训练,采用PPO算法和域随机化增强鲁棒性。通过编码器-解码器架构实现跨形体学习,为VLA驱动的移动操作任务提供了可行方案。
2025-12-22 21:32:46
934
原创 CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性
本文提出CHIP方法,通过事后扰动(Hindsight Perturbation)实现人形机器人的自适应柔顺控制。该方法在不修改参考轨迹和奖励函数的前提下,仅通过调整输入观测值来训练策略,使机器人既能保持运动敏捷性,又能对外力作出柔顺响应。相比传统方法需要大量合成数据或离线运动编辑,CHIP可直接集成到现有运动跟踪框架中。实验证明该方法能同时完成擦拭、推车等需要力控制的任务,以及舞蹈、跑步等敏捷运动,并支持多机器人协同操作。
2025-12-20 22:37:03
1154
原创 Calibrated Q-learning(简称Cal-QL)——为高效在线微调而对“离线RL预训练”做校准:让学到的Q值有上界(保持CQL已做到的不盲目乐观),更有底线(不盲目悲观)
本文探讨了Cal-QL算法在离线强化学习预训练和在线微调中的应用。该算法通过校准Q值,解决了传统方法中因保守性导致Q值被过度压低的问题。Cal-QL确保学到的Q值既作为最优策略的下界,又作为行为策略的上界,避免在线微调初期出现"遗忘"现象。相比现有方法,Cal-QL能更好地保留离线策略的优势,同时在在线阶段实现高效学习。这种校准方法显著提升了从离线预训练到在线微调的过渡效率,为强化学习提供了一种更稳定的训练范式。
2025-12-16 19:06:50
1395
原创 PLD——自我改进的VLA:先通过离策略RL学习一个轻量级的残差动作策略,然后让该残差策略收集专家数据,最后蒸馏到VLA中
《PLD:基于残差强化学习的VLA模型自我改进方法》摘要 本文提出PLD(Policy Learning with Distillation)方法,通过三阶段流程实现视觉-语言-动作(VLA)模型的自我改进。针对高质量机器人数据获取困难、远程操作示范与真实状态分布不匹配等问题,PLD首先冻结VLA主干,利用样本高效的离线策略RL训练轻量级残差actor;然后采用混合rollout方案收集数据,既保留基础策略访问状态又捕获恢复行为;最后通过监督微调将多任务数据蒸馏回基础模型。该方法在LIBERO基准上实现了超
2025-12-15 23:38:47
1348
1
原创 Training-Time RTC——在训练时模拟推理延迟(承认既定事实专心预测后续动作):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作
摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计算成本。
2025-12-13 22:52:40
1695
4
原创 GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL
摘要:GR-RL提出了一种结合视觉语言动作模型(VLA)与强化学习(RL)的新方法,以解决机器人精细操作中的两大挑战:毫米级精确控制和长时序任务鲁棒性。该方法通过三阶段训练流程:1)利用离线RL筛选优质人类示范数据;2)采用镜像对称性进行数据增强;3)通过在线RL在潜在空间进行结构化探索优化。实验表明,这种混合训练范式显著提升了如穿鞋带等高精度灵巧操作任务的性能,解决了传统VLA策略在训练-部署不匹配和次优示范影响下的局限性。
2025-12-08 14:57:55
1884
原创 一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量
DeepSeek-V3.2引入了创新的DeepSeekSparseAttention(DSA)机制,通过两阶段动态检索优化长文本处理效率。DSA采用细粒度的Token-wise筛选,使用闪电索引器快速扫描全局并精选Top-K关键Token,相比传统块级筛选(Block-wise)减少了冗余计算。该机制基于改进的多头潜在注意力(MLA)架构,通过共享键值对条目提升计算效率。与原生稀疏注意力(NSA)不同,DSA强调根据当前查询动态检索最相关内容,而非训练阶段模拟稀疏行为。这一设计在保持模型效果的同时显著降低了
2025-12-05 15:49:14
1956
原创 VIRAL——仿真中训练但现实中视觉驱动(解决loco-mani所需训练数据大的难题):先Sim中训练教师策略,后蒸馏出基于视觉的学生策略
摘要:本文介绍了CMU LeCAR-Lab提出的视觉驱动仿人机器人系统VIRAL,该系统通过教师-学生框架实现行走-操作一体化任务。教师策略利用特权状态信息训练RL模型,输出WBC控制指令;学生策略则通过大规模视觉蒸馏,仅基于RGB图像和本体感知模仿教师行为。关键技术包括:增量动作空间设计、WBC作为API层、参考状态初始化,以及仿真环境的高度随机化。实验表明,该系统无需微调即可零样本迁移到Unitree G1人形机器人,成功完成抓取、搬运等复杂任务。该工作为降低机器人系统部署门槛提供了新思路,使纯视觉驱动
2025-11-30 12:44:44
1757
原创 FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP
本文介绍流策略优化(FPO)算法,这是一种基于条件流匹配(CFM)的策略梯度方法。FPO通过将流匹配损失作为对数似然的替代项,避免了传统流模型复杂的似然计算,直接优化优势加权比值。相比将去噪过程重构为MDP的方法,FPO将采样视为黑盒,保持了标准扩散模型的结构。该算法兼容现有强化学习技术,能处理比高斯策略更复杂的动作分布。理论分析表明,FPO通过优化流匹配损失来提升证据下界(ELBO),使策略更倾向于高回报动作。实验显示FPO在样本效率上优于高斯PPO,为扩散模型在强化学习中的应用提供了新思路。
2025-11-25 17:59:55
2212
原创 π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)
摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过端到端优势条件化处理异构数据,解决了VLA模型在真实场景中强化学习的可扩展性与稳定性问题,为通用机器人学习提供了
2025-11-18 23:13:09
6254
5
原创 TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)
TWIST2是一套创新的人形机器人遥操作与数据采集系统,结合了全身控制的强大功能和便携性优势。该系统使用VR设备(PICO4U)和低成本动作追踪器实现全身动作捕捉,无需昂贵设备。创新性地设计了可拆卸颈部模块,集成立体视觉,支持第一人称操作。系统包含人体姿态重定向流程和基于强化学习的鲁棒动作追踪控制器,能完成长时序灵巧任务(如折叠毛巾)和高效数据采集(20分钟100次演示)。此外,提出的分层控制框架(底层运动跟踪+高层扩散策略)首次实现了基于视觉的全身自主控制。相比现有方案,TWIST2在保持全身控制能力的同
2025-11-17 11:49:33
3595
2
原创 DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题
本文介绍了DeepSeek团队开发的DeepSeek-OCR模型,这是一种创新的视觉-语言模型,专注于通过视觉模态实现高效的文本信息压缩。该模型采用DeepEncoder架构,结合窗口注意力和全局注意力机制,在高分辨率输入下保持低内存消耗和少量视觉token。实验显示,在9-10倍文本压缩下达到96%+的OCR精度,在20倍压缩下约60%精度。模型支持多种分辨率输入,并具备解析图表、化学式等复杂内容的能力。训练数据涵盖3000万页多语言文档和1000万条场景文本,采用精细标注策略。解码器采用DeepSeek
2025-11-11 23:39:37
3166
1
原创 πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能
本文探讨了工业机械臂智能化改造的最新方法,重点介绍了首个在线强化学习(RL)微调流式视觉语言代理(VLA)的框架πRL。针对传统自回归VLA在连续动作控制上的局限性,πRL创新性地提出了Flow-Noise和Flow-SDE两种解决方案,克服了流匹配中对数似然估计的难题。该框架通过将强化学习与基于流的VLA架构(如π0和π0.5)相结合,实现了高精度且泛化的机械臂控制能力,为工厂智能化改造提供了新的技术路径。研究表明,RL微调VLA的方法正在成为工业机械臂智能化的主流方向。
2025-11-10 13:08:11
3951
2
原创 rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)
本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优化。框架支持多种输入数据类型,并实现了超时引导、GAE回报计算等强化学习关键技术,为策略优化提供了稳定高效的实现
2025-11-02 00:18:25
4633
1
原创 Exbody 2——富有表现力的人形全身控制:Teacher–Student两阶段训练方式,基于CVAE做连续运动合成
UCSD团队开发的ExBody2是一种先进的人形机器人全身控制框架,通过两阶段教师-学生训练策略实现高精度动作模仿。该系统采用特权信息训练教师策略后,将其蒸馏为学生策略用于真实部署。创新性地使用了局部关键点跟踪策略和基于CVAE的运动合成技术,解决了全局跟踪误差累积和连续运动生成问题。实验表明,ExBody2在Unitree G1/H1平台上实现了优于基线方法的上半身/下半身协调跟踪表现。该系统克服了ExBody1分离控制的局限,通过全身协同mimic实现了更自然的舞蹈等高难度动作模仿。
2025-11-01 23:58:20
3865
原创 GMR——人形动作追踪的通用动作重定向:在不做复杂奖励和域随机化的前提下,缓解或消除重定向带来的伪影(含PHC的详解)
摘要:本文深入解析了通用动作重定向(GMR)方法,旨在解决人形机器人运动跟踪中的关键问题。由于人类与机器人在形态结构上的显著差异,传统重定向方法常导致脚滑、穿透等物理伪影。GMR通过五步流程实现优化:1)关键部位匹配;2)静止姿态对齐;3)局部非均匀缩放;4)带旋转约束的逆运动学求解;5)精调优化。实验表明,相比PHC等方法,GMR能有效减少伪影,提升动作质量,为人形机器人动作学习提供更可靠的数据基础。
2025-10-30 18:55:45
4328
原创 Video2Motion之GVHMR——基于重力-视角坐标的人体运动恢复:从RGB视频中提取人的SMPL轨迹(含人体姿态估计WHAM的详解)
本文系统介绍了三种3D人体姿态估计方法:WHAM、HaMeR和GVHMR。重点阐述了WHAM的架构设计,它通过结合ViTPose检测的2D关键点和图像特征,利用RNN编码运动上下文,实现从视频到SMPL参数的精确估计。文章详细解析了WHAM的两阶段训练策略:先在AMASS数据集预训练,再在真实视频数据上微调。同时介绍了WHAM的创新点,包括全局轨迹解码器设计和接触感知轨迹优化方案,有效解决了脚滑问题。这些方法共同构成了从单目视频重建带世界坐标系3D人体运动的技术体系,为具身智能研究提供了重要基础。
2025-10-28 21:02:34
3963
原创 TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA:把智元轮式数据迁移到宇树G1上,先二次预训练后微调(免去动捕)
摘要:TrajBooster提出了一种跨形态框架,通过将末端执行器轨迹从轮式机器人迁移到双足人形机器人,解决双足VLA微调数据稀缺问题。该框架包含真实轨迹提取、仿真重定向和真实微调三个步骤,利用AgibotG1的大规模数据提升UnitreeG1的VLA训练效果。实验表明,仅需10分钟真实遥操作数据即可实现广泛全身操作任务,展现了在多样化工作空间中的操作能力。
2025-10-20 19:11:35
4659
2
原创 PhysHSI——搬运箱子,不在话下:仿真中AMP训练,现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位
本文解读了PhysHSI系统,这是一个面向真实世界的通用人形机器人-场景交互系统。该系统通过仿真训练和现实部署两大模块实现:在仿真阶段,利用重定向MoCap数据结合AMP强化学习训练出具有自然动作和泛化能力的策略;在现实部署中,通过激光雷达与相机结合的定位模块解决物体定位难题。PhysHSI能稳定完成搬箱子等交互任务,相比传统方法在泛化性和动作自然度上具有优势。其创新点包括混合参考状态初始化、非对称Actor-Critic框架等,为具身智能发展提供了新思路。
2025-10-15 16:23:35
4307
原创 ResMimic——类似预训练-微调模式的人形行走-操作:先预训练一个通用运动跟踪策略,后针对特定任务做修正(非盲态部署时依赖动捕)
摘要:ResMimic提出了一种基于残差学习的人形机器人全身行走-操作框架,通过解耦通用运动跟踪(GMT)策略与任务特定修正,实现高效精确的控制。GMT策略在大规模人类动作数据上预训练,提供运动先验;残差策略则针对物体交互进行轻量级调整。相比现有方法依赖任务特定设计或有限全身交互,ResMimic在统一框架下支持多样化接触与动态操作,减少数据需求与奖励工程。相关研究背景涵盖人形控制、模仿学习及残差学习在机器人领域的应用,凸显该工作对推动通用全身操作的意义。
2025-10-12 11:13:00
5433
原创 23-25年总结——不再迷茫且全力具身:个人变为技术研究者,公司则先后经历大模型开发、具身开发
文章摘要: 作者回顾2023-2025年公司转型历程:2023年因ChatGPT兴起从教育转向科技公司,开发十余个大模型应用;2024年受斯坦福机器人研究启发进军具身智能领域;2025年在长沙组建团队,取得机械臂和人形机器人研发突破(如自主抓取、VR遥操、大模型交互等)。作者提出衡量个人/公司价值的标准是对社会的贡献程度,并强调通过具身智能造福千万人的愿景。文中详细记录了长沙团队在6-9月的技术突破时间表,展现快速迭代的研发能力。
2025-10-07 15:04:28
6270
8
原创 一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中
本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3) 模型架构层面,采用SigLIP+ConvNeXt混合视觉编码器和分块处理技术,支持高分辨率输入。实验表明,该9B参数模型性能媲美7
2025-10-06 13:52:04
4702
4
原创 Uni-NaVid(NaVid升级版)——基于视频和指令规划动作:通过在线Token合并和前瞻性预测,试图一统4类导航任务
摘要:Uni-NaVid是一种基于视频的视觉-语言-动作(VLA)模型,旨在统一多种具身导航任务。该模型通过在线Token合并机制高效处理实时视频流,支持5Hz推理频率,适用于连续环境导航。研究构建了包含四类导航任务(视觉语言导航、目标导航、具身问答和跟随任务)的360万样本数据集,并提出新的语言引导人类跟随基准。相比依赖专用模块的现有方法,Uni-NaVid能直接生成底层动作,解决了传统方法在任务泛化和实际部署中的局限性。项目代码基于LLaMA-VID和NaVid框架开发。
2025-10-06 00:41:21
4933
原创 RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)
《RaC:通过恢复与纠正扩展机器人长时任务学习能力》摘要 CMU研究者提出RaC训练范式,针对模仿学习在长时任务中的局限性。该方法在预训练基础上引入人类干预数据收集:当策略即将失败时,操作员首先回滚机器人至安全状态,再提供纠正片段。这种结构化干预包含两种关键行为:(1)恢复至分布内状态;(2)执行子任务纠正。实验表明,RaC能显著提升策略鲁棒性,在接触丰富的灵巧操作任务中实现10倍效率提升。该方法创新性地将恢复行为视为可学习技能,无需修改基础模仿学习框架,仅通过优化数据构成即可突破传统模仿学习的性能瓶颈。研
2025-10-05 00:43:33
4350
2
原创 DreamControl——结合扩散模型和RL的全身人形控制:利用在人体运动数据上训练得到的扩散先验,随后在仿真中引导RL策略完成特定任务
摘要 DreamControl提出了一种结合扩散模型与强化学习的全身类人机器人控制方法。该方法通过人类动作扩散先验引导强化学习策略,解决了传统方法在全身运动操作任务中面临的挑战。系统分为两阶段:首先利用人类动作数据训练扩散先验模型生成运动规划;然后在仿真环境中训练RL策略跟随这些规划完成特定任务。该方法仅需人类数据而非遥操作数据,显著降低数据收集成本,同时生成更自然的运动轨迹,有助于缩小仿真与现实的差距。实验表明,该方法能发现传统RL无法获得的解决方案,并实现真实机器人部署。
2025-10-04 00:01:40
4671
原创 一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合
DeepSeek团队联合北大、华盛顿大学提出全新注意力机制NSA,通过硬件对齐和可训练稀疏性解决长序列处理难题。NSA采用层次化token建模,结合压缩、选择和滑动窗口三种路径,在保持性能的同时显著降低计算量。相比传统方法仅在推理阶段应用稀疏性,NSA实现端到端训练,并兼容现代高效解码架构。实验表明,NSA在64k上下文处理中计算量减少7.88倍,获ACL2025最佳论文,其改进版DSA已应用于DeepSeekV3.2-Exp模型。该研究为大模型长上下文处理提供了高效解决方案。
2025-10-03 20:43:44
4885
2
原创 VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令
VisualMimic提出了一种基于视觉的人形机器人仿真到现实强化学习框架,通过分层策略设计实现复杂物体交互。低层任务无关策略学习人体运动先验,高层任务相关策略基于自中心视觉生成指令。采用教师-学生蒸馏方法解决动作简化带来的性能损失问题,并引入数据增强提升鲁棒性。实验证明该方法能实现零样本迁移到真实机器人,完成推箱、踢球等多样任务,在户外环境也表现稳定。相比现有方法,该框架在任务多样性和现实适应性方面取得突破,为人形机器人自主操作提供了新思路。
2025-09-28 22:32:19
4670
原创 NavFoM——打造VLN基础模型:通过安装在机器人上的摄像头和人类下达的指令,预测移动轨迹(可跨任务、跨本体)
如果前两周去长三角,见的更多是客户的话,那么本周在北京出差的这几天,见的更多是合作伙伴,比如千寻、智元、北京人形等等说到导航,这两天 则又看到了本文正要解读的NavFoM,个人觉得,该工作的创新不少,值得多读几遍。
2025-09-27 00:50:36
4900
2
原创 HDMI——人形交互式全身控制:宏观上从人类RGB视频中学习全身交互控制,微观上暂依赖动捕数据,且暂一项技能一套策略
摘要:HDMI(人形交互模仿)是一种从人类视频中学习全身控制的新框架。该研究解决了人形机器人-物体交互(HOI)中的两大挑战:数据稀缺和强化学习训练难题。方法分为三个阶段:从RGB视频提取运动轨迹、使用强化学习训练协同跟踪策略、直接部署执行。关键技术包括:统一物体表示、残差动作空间和交互奖励机制。相比传统方法,HDMI无需任务特定奖励设计,能处理不同物体类型和交互场景,实现更自然的搬运等复杂任务。该框架为人形机器人运动-操作一体化提供了通用解决方案。
2025-09-25 00:50:26
5249
2
原创 SoFTA——如何让人形在餐厅给顾客上一杯啤酒:快-慢双智能体框架,上半身高频执行精细操作,下半身低频稳步行走
SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。
2025-09-21 21:07:59
4535
原创 GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)
本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练》的然因为我司于25年9 20/21在长沙举办的人形二次开发线下营上午讲openpi微调全流程下午先把『数采、格式转换、ACT和gr00t训练』的全套流程全部封装在了仿真中,可以快速在仿真中采数据,然后验证模型执行几个任务再之后,我们把gr00t的真机部署流程全程细讲最后再演示下面这个纸巾抓取,完美收尾,明天
2025-09-21 00:43:09
5368
8
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅