- 博客(342)
- 资源 (43)
- 收藏
- 关注

原创 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、训练方法到Robotics VLM、通用VLA π0等
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
15521
6

原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
31028
22

原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
340493
343

原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
216596
142

原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
769550
506

原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
907599
421

原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1532060
807
原创 一文通透Qwen LLM系列——从Qwen、Qwen1.5、Qwen2、Qwen2.5到Qwen3(融合了chat和推理)、Qwen3 MoE
通义千问Qwen3系列大模型在架构、训练和数据方面实现全面升级。该系列包含6个稠密模型和2个MoE模型,其中2350亿参数的旗舰模型Qwen3-235B-A22B在多项基准测试中超越同类产品。模型采用分组查询注意力、SwiGLU等先进架构,通过三阶段预训练(通用、推理、长上下文)处理36万亿token的多语言数据。后训练创新性地引入"思维控制"和"强到弱蒸馏"技术,显著提升模型推理能力和训练效率。相比前代Qwen2.5,新模型在参数效率、多语言支持和长文本处理等方面均
2025-08-16 15:00:02
640
原创 EgoVLA——根据第一视角的人类视频中训练的VLA模型:助力家具组装等人形灵巧操作任务的攻克(利用可穿戴手部追踪)
摘要:七月在线公司聚焦人形机器人和机械臂两大应用场景,重点研究灵巧操作、展厅讲解、智能装配和精密插拔技术。EgoVLA模型通过人类第一视角视频学习操作技能,将人类动作转化为机器人指令,大幅降低对机器人硬件数据的依赖。该模型采用NVILA-2B架构,结合手腕姿态和手部参数预测未来动作,仅需少量机器人演示数据微调即可实现跨域迁移。研究构建了包含50万样本的第一人称操作数据集,并开发了仿人双臂操作基准测试,验证了该方法的有效性。
2025-08-15 00:45:49
1270
原创 Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA
摘要:本文系统解读了星海图提出的G0双系统VLA模型及其配套的Galaxea开放世界数据集。G0采用双系统架构:系统2(G0-VLM)负责多模态规划,系统1(G0-VLA)执行精确动作操作。配套数据集包含500小时真实场景数据,覆盖50个场景150项任务,采用统一机器人实体采集确保一致性。研究提出了三阶段训练课程,并通过实验验证了单一实体预训练的重要性。与现有模型(如π0.5)相比,G0在开放世界任务中展现出更强的泛化能力。该工作为具身智能在真实场景的应用提供了新范式。
2025-08-14 17:04:03
980
原创 ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”三者实现精密插拔
摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配生成动作轨迹。实验表明,ForceVLA能有效应对视觉模糊场景,在多种插拔任务中展现出更强的鲁棒性和适应性。
2025-08-13 00:00:46
1396
1
原创 IDEA-Research推出的一系列检测、分割模型:从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2
本文聚焦IDEA-Research开发的系列目标检测模型,重点解析GroundingDINO的创新架构。该模型通过双编码器-单解码器设计,创新性地融合视觉与语言模态:1)特征增强器实现跨模态特征对齐;2)语言引导查询选择模块优先筛选文本相关的视觉特征;3)跨模态解码器引入文本注意力层。相比传统检测器,其突破性在于:采用子句级文本表征消除无关词项干扰,并通过对比损失实现开放集检测。文章还预告将分析DINO-X等后续模型,形成完整的视觉-语言联合检测技术演进图谱。(149字)
2025-08-07 13:59:08
1553
原创 一看视频就能学会的VideoMimic——三步走:先real2sim(涉及视频作为输入、提取姿态且点云化、重定向到G1上),后sim中训练,最后sim2real
UC伯克利提出VideoMimic框架,通过单目视频实现人形机器人动作模仿。该方法从视频中重建4D人-场景几何,将动作重定向到机器人,并训练强化学习策略。系统包含四个阶段:预处理提取人体姿态和场景点云;联合优化人体与场景几何;生成仿真兼容的网格数据;通过多阶段策略学习实现动作跟踪和蒸馏。最终策略仅需本体感知和局部高度图即可控制机器人完成行走、攀爬等动作,并在Unitree G1机器人上验证成功。该方法无需人工奖励设计,直接从视频数据学习环境感知的全身控制技能。
2025-08-06 16:46:08
2218
原创 TrackVLA——开放世界下的四足具身视觉跟踪EVT(智能跟随):集目标识别与轨迹规划为一体的VLA,不怕高动态与遮挡
TrackVLA是一种新型视觉-语言-动作模型,将目标识别与轨迹规划整合到统一框架,解决具身视觉跟踪(EVT)任务中的误差累积问题。该模型采用联合训练方式,利用85.5万条视频识别和机器人跟踪样本,通过语言建模头和扩散头分别处理识别与规划任务。相比传统将感知与规划解耦的方法,TrackVLA在高度动态环境中展现出更优性能,支持自然语言输入,并实现了识别与规划的协同优化,为机器人跟随等应用提供了新思路。
2025-08-05 18:58:25
1809
原创 Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)
Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据的依赖。相比传统方法局限于简单桌面任务,Manual2Skill突破了复杂家具装配的挑战,为智能制造提供了新思路
2025-08-02 01:14:51
2430
2
原创 LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
摘要: LOVON是一种新型足式机器人系统,通过整合大语言模型(LLM)的任务规划、开放词汇视觉检测和语言到运动模型(L2MM),实现了复杂长时任务的自主执行。该系统创新性地采用拉普拉斯方差滤波技术缓解运动抖动问题,并设计了功能执行逻辑确保任务鲁棒性。实验表明,LOVON在仿真和真实机器人平台(如Unitree Go2)上能有效完成开放词汇目标搜索与导航任务,解决了传统方法在长时序、动态环境中的局限性。该研究为足式机器人在非结构化环境中的高级自主性提供了新思路。
2025-08-01 16:32:19
1900
1
原创 NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步:无需地图/里程计/深度信息(含MP3D/R2R/RxR,及VLN-CE的详解)
因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid虽然NaVid目前已经不是VLN sota了,但其首次展示了VLM在无需地图、里程计或深度输入的情况下,能够实现优秀的导航性能且对后来的很多VLN工作——比如NaVILA 都有比较大的启发、借鉴意义,且VLN论文中 其实提供了 “不少更好理解NaVILA” 的背景知识或基础,比如VLN-CE总之,如果相对VLN有相对完整深入的理解,NaVid是必看工作之一加之导航在人形落地中的重要性,故 一方面,
2025-07-27 00:29:02
2907
4
原创 NaVILA源码解析——从其VLA部分到其low-level部分:涵盖legged-loco、rsl_rl
本文详细解析了NaVILA/legged-loco代码库的技术实现,重点包括: 机器人配置系统:深入剖析了Go1/Go2四足机器人和G1/H1人形机器人的基础与视觉增强配置,特别是H1机器人在复杂地形中的视觉感知实现差异。 核心MDP组件:解析了分层控制架构(10Hz导航决策+50Hz运动执行)、三种导航动作实现(基础、VLM、GPT增强)以及多维度奖励函数设计(稳定性、能效、目标导向等)。 强化学习框架: 完整实现PPO算法(包含GAE、KL自适应学习率、裁剪机制等核心特性) 支持多种Actor-Crit
2025-07-25 14:39:31
2409
2
原创 可语音流畅交互的OneTwoVLA——基于π0实现类π0.5:一个模型中完成原来双系统下的慢思考、快执行,且能自适应推理和自我纠错
OneTwoVLA:统一视觉-语言-行动模型实现自适应推理与执行协同 本文提出OneTwoVLA模型,通过统一架构解决现有系统在推理与执行分离时产生的问题。该模型创新性地实现了:1)自适应切换推理与执行模式的能力;2)支持视觉-语言数据的联合训练提升泛化性;3)开发可扩展的合成流程自动生成16,000个具身推理数据样本。相比传统双系统框架,OneTwoVLA在错误检测恢复、人机交互和视觉定位等方面展现出显著优势,为构建更智能的机器人系统提供了新思路。
2025-07-23 18:59:01
2600
1
原创 Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)
UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。
2025-07-16 16:05:39
3088
原创 实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全
摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智
2025-07-15 16:43:07
3815
4
原创 π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)
本文解读π0公司提出的VLA(视觉-语言-动作)模型改进方法。针对传统VLA模型在引入连续控制模块(如动作专家)时易破坏预训练视觉语言模型(VLM)知识的问题,研究者提出"知识隔离"技术:通过切断动作专家梯度对VLM主干的传播,既保护预训练语义知识,又允许VLM通过离散动作token微调适配机器人任务。该方法兼具训练高效、推理实时(支持高频连续动作输出)和知识保留优势,相较混合自回归-扩散方案显著提升性能。文章还对比了动作分块表示、状态编码等关键技术
2025-07-10 12:18:12
2350
原创 WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调
毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线RL方向的同仁多交流(欢迎私我一两句的简介,邀你加入:七月:HIL-SERL/WSRL/VITAL交流
2025-07-06 23:23:58
2981
2
原创 VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)
摘要:VITAL框架通过两阶段策略(全局视觉定位+局部触觉操作)解决精密操作任务泛化难题。第一阶段利用视觉语言模型进行目标定位,第二阶段复用自中心视觉与触觉的局部策略完成毫米级操作。该方案结合模仿学习(32次演示)与强化学习微调(45分钟),通过语义数据增强保持泛化性,显著降低对场景变化的敏感性。实验显示,该方法在USB插入等任务中兼顾精度与跨环境适应性,为机器人精细操作提供新思路。(149字)
2025-07-03 17:01:43
3752
原创 从RoboMimic、DeepMimic到带物理约束的MaskMimic——人形全身运控的通用控制器:自此打通人类-动画-人形的训练路径
摘要:本文探讨了机器人动作模仿技术DeepMimic及其改进方案MaskMimic的发展历程。该技术通过结合深度强化学习和动作跟踪,实现了让虚拟角色和机器人模仿人类动作的能力。相比传统需要为每个动作单独设计控制器的做法,DeepMimic采用统一的神经网络架构和跟踪型奖励机制,只需提供参考动作即可生成对应控制策略。文章还介绍了该技术在宇树G1机器人上实现查尔斯顿舞的实际应用案例,以及从DeepMimic到PHC(物理角色控制)的技术演进路径。
2025-06-30 23:40:55
3955
原创 TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化
6月团队密集开展具身智能开发,连续实现机械臂(piper)、人形机器人(宇树G1)的VR遥操与自主任务训练。重点突破TWIST系统,该创新方案将全身遥操建模为实时动作重定向问题,通过MoCap数据采集与两阶段RL训练策略,解决了人机异构体差异带来的控制瓶颈。系统整合15,000段离线动作与150段实时数据,在29自由度的UnitreeG1上实现多样化类人技能。相比传统模块化控制器或局部动作捕捉方案,TWIST通过末端执行器扰动训练和联合优化关
2025-06-25 17:30:24
3599
原创 从R2S2到OpenWBT——提高人形的到达能力:模仿教师策略下RL探索新行为,最终实现技能之间的协调与切换(含OpenWBC移动抓娃娃简介)
本文解读了R2S2和OpenWBT工作,提出Real-world-Ready Skill Space(R2S2)框架来解决类人机器人在真实环境中的运动控制问题。该框架通过构建包含行走、姿态调整和手部操作等原始技能库,并通过模仿学习和强化学习将技能集成编码为潜在空间,从而实现了技能间的协调与切换。研究在IsaacGym仿真环境中训练,采用PPO算法和域随机化技术,最终形成具有仿真到现实迁移能力的结构化技能先验,为高层任务规划提供了统一表达。该工作突破了传统方法在系统建模和环境扰动上的局限,为类人机器人的全身控
2025-06-24 22:12:37
3874
原创 增量学习ASAP的源码剖析:如何实现人形的全身控制和运动追踪(含HumanoidVerse中的agents、envs)
本文解析了ASAP开源代码框架,这是一个专注于人形机器人敏捷运动技能学习的平台。核心内容包括:1) 算法层实现PPO、DAgger等强化学习算法,支持增量学习等创新模块;2) 环境层提供运动控制和任务跟踪等场景;3) 模拟器层对接IsaacGym等多物理引擎。文章详细剖析了PPO训练流程、广义优势估计计算等关键技术实现,并介绍了双策略机制和参考策略加载等创新设计。该框架采用模块化架构,支持从仿真到现实的迁移学习,为人形机器人运动控制研究提供了完整的技术解决方案。
2025-06-21 23:46:39
3823
原创 KungfuBot——基于物理约束和自适应运动追踪的人形全身控制PBHC,用于学习打拳或跳舞(即RL下的动作模仿和运控)
《KungfuBot:基于物理的人形机器人全身控制方法解析》 摘要:本文介绍了最新开源的人形机器人控制框架KungfuBot,该研究由中国电信、上海交大等多所高校联合提出。该系统采用两阶段方法实现高动态动作模仿:首先通过物理指标筛选可行的人类动作数据,随后通过自适应运动跟踪机制训练控制策略。创新性地引入双层优化算法动态调整跟踪因子,并设计非对称的actor-critic架构提升训练效率。相比现有方法,KungfuBot能更好地处理敏捷动作,且仅需少量参考数据即可学习多样化行为。研究团队已完整开源项目代码,为
2025-06-19 19:10:57
5744
6
原创 SmolVLA——Hugging Face等机构推出的轻量且高效的VLA:将动作执行、观测处理、动作预测解耦
摘要:本文介绍了轻量级视觉-语言-动作模型SmolVLA的创新设计与应用。该模型通过优化架构(跳层处理、视觉token压缩、交错注意力机制)和流匹配动作专家,在消费级GPU上实现高效训练与CPU部署。使用不到3万个公开样本进行预训练后,其性能媲美更大规模VLA模型。异步推理架构将感知与动作预测解耦,显著降低延迟。相比传统VLA依赖昂贵硬件,SmolVLA为机器人领域提供了可复现、低成本的解决方案,尤其适合具身智能的实时控制场景。
2025-06-17 23:31:08
4002
2
原创 CLONE——面向长时任务的闭环VR全身遥操:其MoE架构可实现“蹲着走”,且LiDAR里程计解决位置偏差,更增强AMASS数据集
为了历练新同事们,我给所有的新同事们分为了三个项目组(长沙及各地原有的老同事们 则继续之前的客户订单项目)第一组 通过RL(uc伯克利hil-serl) 实现电源插拔第二组 通过lerobot act/pi0,和VLA openpi 实现USB插拔第三组 在弄人形,这两天搞的过程中 发现缺一些设备,所以下周到位后 正式开搞G1 edu版以上的前两个组偏机械臂,大伙每天都在全力加速前进,而人形测 我则继续做更多的技术探索、积累、铺垫如此,过程中,关注到了CLONE这个工作,故本文来解读之
2025-06-13 16:42:15
3772
原创 HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散
如上一篇文章所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司的职责之一且个人认为,如果只是单纯针对叠衣服这个任务,个人认为还是VLA会表现的更好些加之我其实很早就关注到了HybridVLA,只是一直没来得及解读它故本文便来解读这个HybridVLA
2025-06-08 00:22:52
4095
2
原创 dexcap升级版之DexWild——面向户外环境的灵巧手交互策略:人类和机器人演示协同训练(人类直接带上动捕手套采集数据)
因为具身订单需求源源不断,所以长远来看,我们也有源源不断的经费,支撑我们无止境的科研探索故,最终凡是值得探索的,我们都会考虑,且我们也不想做谁谁谁,或某某中国版,而是——只做世界唯一综上,一方面因为叠衣服这个任务,二方面,因为无止境的科研探索,故关注到了本文所要介绍的DexWild
2025-06-06 22:14:38
4654
原创 LeRobot pi0——LeRobot对VLA策略π0的封装:含其源码剖析与真机部署(智能化程度高于ACT)
本文详细剖析了LeRobot框架中π0模型的实现与优化。π0是一个结合视觉-语言-动作的多模态模型,用于通用机器人控制,核心包括: 架构设计 基于PaliGemma视觉语言模型与Gemma专家模型的融合 采用流匹配技术生成机器人动作序列 支持分组查询注意力(GQA)优化推理效率 关键实现 转换工具:将JAX实现的模型转换为PyTorch格式 配置系统:统一管理输入/输出结构、归一化策略和训练参数 注意力优化:提供三种实现(eager/fa2/flex)适配不同硬件 训练流程:通过噪声插值和向量场预测学习动作
2025-06-02 00:04:13
5627
原创 LeRobot ACT——LeRobot对ALOHA ACT策略的封装:含源码解析与真机部署(效果比肩ACT原论文)
本文解析了ALOHA团队提出的动作序列预测算法ACT(Action Chunking with Transformers)在LeRobot框架中的实现与应用。该算法通过Transformer架构同时预测未来动作序列(动作块),而非传统单步预测,使机器人行为更加连贯前瞻。文章详细剖析了核心组件: ACTPolicy类作为接口层,提供两种动作选择机制 多模态Transformer架构包含: 可选VAE编码器捕获动作分布 ResNet视觉骨干网络提取图像特征 Transformer编码器处理多模态输入 Trans
2025-06-01 20:24:51
4346
1
原创 HOMIE——遥操类似ALOHA主从臂的外骨骼驾驶舱收集数据:通过上肢模仿学习和全身控制RL训练自主策略
本文一开始是属于此文《人形loco-manipulation专题——涵盖Mobile-TeleVision、外骨骼驾驶舱HOMIE、下肢RL-上肢模仿的AMO、上下双智能体联合训练的FALCON》的第二部分的但考虑到在这4个针对loco-manipulation的模型中,我想先尝试一下其中的这个HOMIE加之,HOMIE相对开源的更彻底,更想把其介绍的更详尽细致些考虑到为了避免对上文篇幅过长的担忧,而使得很多细节 没法尽情展开,故把HOMIE独立出来,成此文
2025-05-28 23:50:39
5572
原创 人形loco-manipulation专题——涵盖Mobile-TeleVision、下肢RL-上肢模仿的AMO、上下双智能体联合训练的FALCON
自去年起,我司专注于具身智能的场景落地与定制开发,导致需求激增,工作节奏加快。在此背景下,我关注了CMU、UCSD、斯坦福等高校的最新研究,特别是UCSD王小龙团队的AMO工作。AMO提出了一种自适应运动优化框架,通过混合运动合成和可泛化策略训练,解决了人形机器人在动态全身控制中的挑战。该框架结合了动作捕捉数据和概率采样,生成满足动力学约束的全身参考动作,并通过AMO网络实现连续映射,提升了机器人在复杂环境中的适应性和实时响应能力。这一创新为人形机器人的灵巧操作提供了新的解决方案。
2025-05-20 22:55:34
5698
原创 ASAP——让宇树G1后仰跳投且跳舞:仿真中重现现实轨迹,然后通过增量动作模型预测仿真与现实的差距,最终缩小差距以对齐
作者在2025年2月首次看到CMU的ASAP项目,当时对机器人后仰跳投功能不以为然。一个月后,西湖机器人公司发布的宇树G1跳舞视频也未改变其看法。直到一个娱乐集团提出通过二次开发使机器人跳舞以促进消费,作者才意识到该技术的实际应用价值。作者反思了自己对技术潜在价值的忽视,并在与同事讨论后,决定深入研究CMU的ASAP工作。本文由此展开,探讨机器人跳舞技术的行业应用
2025-05-12 12:09:41
6552
3
原创 DexVLA——在VLM上插上1B大小的扩散动作专家:使用带有子步骤推理注释的演示数据训练,15小时搞定叠衣服(含源码解析)
本文一开始属于此文的第四部分,由于我们准备挑战下折叠衣服这个任务,故除了π0之外,还关注到了这个DexVLA加之还准备解读下其源码,从而把DexVLA这部分独立成本文。
2025-05-08 12:59:33
4976
2
原创 一文速览可证数学定理的DeepSeek-Prover系列模型:从Prover V1、Prover V1.5到DeepSeek-Prover V2
比如我们现在课程视频 都有对应的字幕 摘要,以及可以随时截图视频某一帧 提问VLM很快,我们还会实现类似腾讯会议的转写功能:方便大家 「基于视频的所有字幕内容」做快速回顾,和单个字级别的精准定位——点击右侧的文字 让左边的视频跳转到对应位置个人在长沙居多,但经常去上述几个地方,如之前在博客里提到过的,因为个人在长沙,所以我很早就想把在长沙做大模型和具身智能的给聚起来昨天下午,我请中南的两个具身方向的博士生以及中兴的一大模型业务负责人在渔人码头喝茶,期间聊到了DeepSeek-Prover V2。
2025-05-06 18:26:38
4377
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人