点击下方卡片,关注“具身智能之心”公众号
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
2025年国际学习表征会议(ICLR)将于4月24日至28日在新加坡博览中心(Singapore EXPO)举办,这是该会议首次在亚洲举行,标志着其全球化进程的重要里程碑。作为深度学习与表征学习领域的顶级会议,ICLR 2025汇聚了全球学术界与工业界的顶尖研究者,涵盖人工智能、统计学习、计算机视觉、自然语言处理等前沿议题,并特别关注气候科学、生物医学等跨学科应用。
本届会议预计规模空前,投稿论文超11,000篇,较往年增长61%。活动包括主旨演讲(如普林斯顿大学Danqi Chen、加州伯克利Dawn Song等学者的分享)、 workshops(如“应对气候变化的机器学习”、“模块化深度学习”),以及苹果、A*STAR等机构的前沿技术展示。本期具身智能之心总结了部分ICLR 2025的文章,一起看看吧~
更多内容欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球!!!
差异化竞争:现场大部分工作都在研究算法,这个团队关心起了传感器

这篇由Arjun Krishna、Edward S. Hu和Dinesh Jayaraman合作的研究论文探讨了机器人感知信息的价值评估问题,提出了一个新颖的框架来分析不同任务状态下感知信息对机器人策略的关键性程度。该研究针对机器人领域一个基础但未被系统研究的问题:在任务执行的不同时间点,感知信息对机器人决策的实际价值如何量化。传统机器人系统通常默认需要持续感知环境,但研究者质疑这一假设,提出感知信息可能只在特定时刻具有关键价值,而在其他时间点可能冗余。这一问题的探究对于设计资源高效的机器人系统具有重要意义。
研究团队通过实证方法,分析了不同架构的智能体(包括模仿学习、强化学习和基于模型控制的策略)在多样化机器人任务中的表现,核心是量化当状态观测信息被暂时或永久性屏蔽时,机器人性能的退化程度(称为"regret")。这一方法揭示了感知信息的关键时间窗口及其与任务特性、策略架构的关联规律。
模型与方法论
实验框架设计
研究采用了混合循环执行(MixL, Mixed Loop)的策略评估框架:在初始状态s₀,智能体执行一个开环动作计划a₀₋₃ ∼ π₀₋₃(s₀)持续h=3个步骤;在此开环执行期间,由于随机动力学或不完美的环境模型,不确定性会累积;在t=3时刻通过感知状态信息来消除累积的不确定性。这种设计允许研究者精确控制感知信息的输入时机和持续时间,从而量化不同任务阶段感知的价值。

策略类型比较
研究对比了三种主要策略合成方法生成的智能体:(1)模仿学习策略:从专家演示中直接学习感知-动作映射(2)强化学习策略:通过奖励信号优化感知-决策管道(3)基于模型的控制策略:依赖内部世界模型进行规划
评估指标
核心评估指标是感知剥夺下的性能衰减(regret),具体操作包括:(1)在任务状态空间中系统性地屏蔽感知输入(2)测量不同屏蔽时长(duration)和时机(timing)对任务成功率的影响(3)建立感知价值与任务状态、策略架构的关联模型

主要研究发现与创新点
感知关键性的稀缺性:在多数标准任务中,感知信息仅在少数时刻对决策具有关键价值
训练程度与感知效率的反比关系:高性能策略比训练初期的策略更少依赖持续感知
任务动力学的主导影响:环境随机性(而非策略架构)是决定感知需求的主要因素

看看巨头在研究什么:看英伟达+wayve如何研究仿真闭环

CLoSD提出了一种创新的仿真-扩散闭环系统,用于解决多任务角色控制问题。该研究通过将物理仿真器与扩散策略相结合,实现了:
仿真到动作的闭环优化:将仿真器的状态反馈直接输入到扩散模型中,形成动态调整的闭环系统
多任务统一控制:单个模型可同时处理 locomotion、物体交互、复杂环境导航等多样化任务
运动质量与物理一致性的平衡:通过仿真器约束保证动作的物理可行性,同时利用扩散模型生成自然流畅的运动

模型框架
CLoSD提出了一种创新的仿真-扩散闭环系统,通过将物理仿真器与扩散模型相结合,实现了多任务角色控制。其核心架构包含两个关键模块:Diffusion Planner (DiP) 和 RL跟踪控制器。DiP是一个实时响应的自回归扩散模型,根据文本提示和目标位置生成短期动作序列;RL控制器则负责执行这些动作,并通过物理仿真器反馈环境状态,形成闭环优化。系统支持动态调整扩散模型与仿真器的贡献权重,以适应不同任务复杂度。这种设计使得CLoSD能够处理从导航到物体交互的多样化任务,如“跳跃到目标”或“用拳击打物体” 。

创新之处
CLoSD的核心创新在于语义驱动的闭环控制和物理感知的扩散训练。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。其次,提出PhysDiff损失函数,在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。实验表明,该系统在任务切换(如“坐下”到“站起”)时仅需3帧过渡,且对未见任务组合的泛化成功率高达89%。

仿真也能微调了?

这篇文章提出了一种分阶段的仿真-现实策略迁移框架(SGFT)。其核心是通过仿真预训练和价值函数引导的实时微调实现高效适应:
仿真预训练阶段:在物理仿真器中训练基础策略(如使用强化学习或模仿学习),并同步学习一个仿真价值函数 _Vsim_,用于评估状态的任务相关性。
现实微调阶段:在真实环境中,利用 Vsim 生成密集奖励信号,通过潜在状态排序和有限时域优化缩短探索范围。例如,将无限时域RL目标替换为有限步长(H-step)目标,并基于_Vsim_ 对终端状态进行奖励重塑,从而加速收敛。
模型集成:结合模型基强化学习(MBRL),利用短时域动态预测和 Vsim 的引导,避免长时域误差累积。

SGFT的创新性体现在以下方面:
价值函数引导的探索:通过 Vsim 定义的状态优先级,将仿真中的高层行为结构(如“抓取-移动”序列)迁移到现实,即使低层动力学存在差异
时域缩短与偏差控制:理论证明了有限时域优化可减少探索复杂度,同时_Vsim_ 的奖励重塑避免了策略性能的初始退化(即“灾难性遗忘”问题)
样本效率突破:在五类灵巧操作任务中,SGFT仅需50-100次现实交互即可达到85%成功率,比传统方法快3-4倍,且无需真实数据预训练

强化学习+transformer 两大“杀器”可以产生什么威力

BodyGen是一种基于强化学习的形态-控制协同设计框架,通过Transformer架构同时优化机器人的形态结构和控制策略。其核心包含两个阶段:(1) 形态设计阶段,使用GPT风格的自回归模型生成机器人身体结构参数;(2) 环境交互阶段,采用BERT风格的Transformer处理关节信息并实现与环境的实时反馈。框架通过拓扑感知自注意力机制(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。此外,BodyGen采用混合循环执行策略,在仿真环境中预训练通用形态原则,再通过策略微调适配具体任务,显著提升了计算效率。


创新之处
BodyGen的核心创新在于解决了传统协同设计中的两大瓶颈:形态表示低效和奖励信号不平衡。首先,TopoPE通过编码二维拓扑结构,实现了跨形态的知识共享,使系统能快速适应新设计的身体结构。其次,时序信用分配机制动态平衡形态设计(零奖励引导)与控制优化(高奖励引导)阶段的奖励信号,避免了传统方法因奖励偏置导致的局部最优问题。实验表明,该框架在10项任务中平均性能提升60.03%,且样本效率比基线方法高25-30%。

参考文献
The Value of Sensory Information to a Robot, https://openreview.net/pdf?id=ikr5XomWHS
CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control, https://arxiv.org/pdf/2410.03441
Rapidly Adapting Policies to the Real World via Simulation-Guided Fine-Tuning, https://arxiv.org/pdf/2502.02705
BodyGen: Advancing Towards Efficient Embodiment Co-Design, https://arxiv.org/pdf/2503.00533
往期 · 推荐
机械臂操作
UC伯克利&NVIDIA最新!AutoEval:真实世界中通用机器人操作策略评估系统
港大最新!RoboTwin:结合现实与合成数据的双臂机器人基准
伯克利最新!CrossFormer:一个模型同时控制单臂/双臂/轮式/四足等多类机器人
四足或人形机器人
Fourier ActionNet:傅利叶开源全尺寸人形机器人数据集&发布全球首个全流程工具链
斯坦福大学 | ToddlerBot:到真实世界的零样本迁移,低成本、开源的人形机器人平台
TeleAI&港科大最新!离线学习+在线对齐,扩散模型驱动的四足机器人运动
Robust Robot Walker:跨越微小陷阱,行动更加稳健!
斯坦福大学最新!Helpful DoggyBot:四足机器人和VLM在开放世界中取回任意物体
机器人学习
强化学习迁移到视觉定位!Vision-R1将图文大模型性能提升50%
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
UC伯克利最新!Beyond Sight: 零样本微调异构传感器的通用机器人策略
CoRL 2024 | 通过语言优化实现策略适应:实现少样本模仿学习
NeurIPS 2024 | BAKU:一种高效的多任务Policy学习Transformer
人形机器人专场!有LLM加持能有多厉害?看HYPERmotion显身手
NeurIPS 2024 | 大规模无动作视频学习可执行的离散扩散策略
波士顿动力最新!可泛化的扩散策略:能有效操控不同几何形状、尺寸和物理特性的物体
RSS 2024 | OK-Robot:在机器人领域集成开放知识模型时,真正重要的是什么?
MIT最新!还在用URDF?URDF+:一种针对机器人的具有运动环路的增强型URDF
VisionPAD:3DGS预训练新范式!三大感知任务全部暴力涨点
NeurIPS 2024 | VLMimic:5个人类视频,无需额外学习就能提升泛化性?
纽约大学最新!SeeDo:通过视觉语言模型将人类演示视频转化为机器人行动计划
CMU最新!SplatSim: 基于3DGS的RGB操作策略零样本Sim2Real迁移
LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law
机器人干活总有意外?Code-as-Monitor 轻松在开放世界实时精确检测错误,确保没意外
斯坦福大学最新!具身智能接口:具身决策中语言大模型的基准测试
机器人控制
RoboMatrix:一种以技能为中心的机器人任务规划与执行的可扩展层级框架
港大DexDiffuser揭秘!机器人能拥有像人类一样灵巧的手吗?
TPAMI 2024 | OoD-Control:泛化未见环境中的鲁棒控制(一览无人机上的效果)
VLA
CVPR2025 | MoManipVLA:通用移动操作VLA策略迁移,显著提升效率与泛化
上海AI Lab最新!Dita:扩展Diffusion Transformer以实现通用视觉-语言-动作策略
北大最新 | RoboMamba:端到端VLA模型!推理速度提升3倍,仅需调整0.1%的参数
英伟达最新!NaVILA: 用于导航的足式机器人视觉-语言-动作模型
优于现有SOTA!PointVLA:如何将3D数据融入VLA模型?
北京大学最新!HybridVLA:打通协同训练,各种任务中均SOTA~
北京大学最新 | 成功率极高!DexGraspVLA:首个用于灵巧抓取的分层VLA框架
ICLR'25 | VLAS:将语音集成到模型中,新颖的端到端VLA模型(西湖大学&浙大)
清华大学最新!UniAct:消除异质性,跨域跨具身泛化,性能超越14倍参数量的OpenVLA
简单灵活,便于部署 | Diffusion-VLA:通过统一扩散与自回归方法扩展机器人基础模型
其他(抓取,VLN等)
ICLR 2025 | TeleAI提出过程引导的大模型具身推理框架
铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025
中山大学&鹏城实验室 | 面向主动探索的可信具身问答:数据基准,方法与指标
Uni-3DAR:统一3D世界,性能超扩散模型256%,推理快21.8倍
TPAMI2025 | NavCoT:中山大学具身导航参数高效训练!
CVPR2025 | 长程VLN平台与数据集:迈向复杂环境中的智能机器人
CVPR2025满分作文!TSP3D:高效3D视觉定位,性能和推理速度均SOTA(清华大学)
模拟和真实环境SOTA!MapNav:基于VLM的端到端VLN模型,赋能端到端智能体决策
场面混乱听不清指令怎么执行任务?实体灵巧抓取系统EDGS指出了一条明路
北京大学与智元机器人联合实验室发布OmniManip:显著提升机器人3D操作能力
动态 3D 场景理解要理解什么?Embodied VideoAgent来揭秘!
NeurIPS 2024 | HA-VLN:具备人类感知能力的具身导航智能体
博世最新!Depth Any Camera:任意相机的零样本度量深度估计
真机数据白采了?银河通用具身大模型已充分泛化,基于仿真数据!
港科大最新!GaussianProperty:无需训练,VLM+3DGS完成零样本物体材质重建与抓取
VinT-6D:用于机器人手部操作的大规模多模态6D姿态估计数据集
机器人有触觉吗?中科大《NSR》柔性光栅结构色触觉感知揭秘!
波士顿动力最新SOTA!ThinkGrasp:通过GPT-4o完成杂乱环境中的抓取工作
LLM+Zero-shot!基于场景图的零样本物体目标导航(清华大学博士分享)
PoliFormer: 使用Transformer扩展On-Policy强化学习,卓越的导航器
具身硬核梳理
一文贯通Diffusion原理:DDPM、DDIM和Flow Matching
Diffusion Policy在机器人操作任务上有哪些主流的方法?
强化学习中 Sim-to-Real 方法综述:基础模型的进展、前景和挑战
墨尔本&湖南大学 | 具身智能在三维理解中的应用:三维场景问答最新综述
十五校联合出品!人形机器人运动与操控:控制、规划与学习的最新突破与挑战
扩散模型也能推理时Scaling,谢赛宁团队研究可能带来文生图新范式
全面梳理视觉语言模型对齐方法:对比学习、自回归、注意力机制、强化学习等
基础模型如何更好应用在具身智能中?美的集团最新研究成果揭秘!
关于具身智能Vision-Language-Action的一些思考
具身仿真×自动驾驶
视频模型For具身智能:Video Prediction Policy论文思考分析
性能爆拉30%!DreamDrive:时空一致下的生成重建大一统
真机数据白采了?银河通用具身大模型已充分泛化,基于仿真数据!
高度逼真3D场景!UNREALZOO:扩展具身智能的高真实感虚拟世界
MMLab最新FreeSim:一种用于自动驾驶的相机仿真方法
麻省理工学院!GENSIM: 通过大型语言模型生成机器人仿真任务
EmbodiedCity:清华发布首个真实开放环境具身智能平台与测试集!
华盛顿大学 | Manipulate-Anything:操控一切! 使用VLM实现真实世界机器人自动化
东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集