盘一下ICLR‘25现场那些有趣的poster及paper（具身智能方向）-CSDN博客

点击下方卡片，关注“具身智能之心”公众号

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

2025年国际学习表征会议（ICLR）将于4月24日至28日在新加坡博览中心（Singapore EXPO）举办，这是该会议首次在亚洲举行，标志着其全球化进程的重要里程碑。作为深度学习与表征学习领域的顶级会议，ICLR 2025汇聚了全球学术界与工业界的顶尖研究者，涵盖人工智能、统计学习、计算机视觉、自然语言处理等前沿议题，并特别关注气候科学、生物医学等跨学科应用。

本届会议预计规模空前，投稿论文超11,000篇，较往年增长61%。活动包括主旨演讲（如普林斯顿大学Danqi Chen、加州伯克利Dawn Song等学者的分享）、 workshops（如“应对气候变化的机器学习”、“模块化深度学习”），以及苹果、A*STAR等机构的前沿技术展示。本期具身智能之心总结了部分ICLR 2025的文章，一起看看吧~

更多内容欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球！！！

差异化竞争：现场大部分工作都在研究算法，这个团队关心起了传感器

这篇由Arjun Krishna、Edward S. Hu和Dinesh Jayaraman合作的研究论文探讨了机器人感知信息的价值评估问题，提出了一个新颖的框架来分析不同任务状态下感知信息对机器人策略的关键性程度。该研究针对机器人领域一个基础但未被系统研究的问题：在任务执行的不同时间点，感知信息对机器人决策的实际价值如何量化。传统机器人系统通常默认需要持续感知环境，但研究者质疑这一假设，提出感知信息可能只在特定时刻具有关键价值，而在其他时间点可能冗余。这一问题的探究对于设计资源高效的机器人系统具有重要意义。

研究团队通过实证方法，分析了不同架构的智能体（包括模仿学习、强化学习和基于模型控制的策略）在多样化机器人任务中的表现，核心是量化当状态观测信息被暂时或永久性屏蔽时，机器人性能的退化程度（称为"regret"）。这一方法揭示了感知信息的关键时间窗口及其与任务特性、策略架构的关联规律。

模型与方法论

实验框架设计

研究采用了混合循环执行(MixL, Mixed Loop)的策略评估框架：在初始状态s₀，智能体执行一个开环动作计划a₀₋₃ ∼ π₀₋₃(s₀)持续h=3个步骤；在此开环执行期间，由于随机动力学或不完美的环境模型，不确定性会累积；在t=3时刻通过感知状态信息来消除累积的不确定性。这种设计允许研究者精确控制感知信息的输入时机和持续时间，从而量化不同任务阶段感知的价值。

策略类型比较

研究对比了三种主要策略合成方法生成的智能体：（1）模仿学习策略：从专家演示中直接学习感知-动作映射（2）强化学习策略：通过奖励信号优化感知-决策管道（3）基于模型的控制策略：依赖内部世界模型进行规划

评估指标

核心评估指标是感知剥夺下的性能衰减(regret)，具体操作包括：（1）在任务状态空间中系统性地屏蔽感知输入（2）测量不同屏蔽时长(duration)和时机(timing)对任务成功率的影响（3）建立感知价值与任务状态、策略架构的关联模型

主要研究发现与创新点

感知关键性的稀缺性：在多数标准任务中，感知信息仅在少数时刻对决策具有关键价值
训练程度与感知效率的反比关系：高性能策略比训练初期的策略更少依赖持续感知
任务动力学的主导影响：环境随机性（而非策略架构）是决定感知需求的主要因素

看看巨头在研究什么：看英伟达+wayve如何研究仿真闭环

CLoSD提出了一种创新的仿真-扩散闭环系统，用于解决多任务角色控制问题。该研究通过将物理仿真器与扩散策略相结合，实现了：

仿真到动作的闭环优化：将仿真器的状态反馈直接输入到扩散模型中，形成动态调整的闭环系统
多任务统一控制：单个模型可同时处理 locomotion、物体交互、复杂环境导航等多样化任务
运动质量与物理一致性的平衡：通过仿真器约束保证动作的物理可行性，同时利用扩散模型生成自然流畅的运动

模型框架

CLoSD提出了一种创新的仿真-扩散闭环系统，通过将物理仿真器与扩散模型相结合，实现了多任务角色控制。其核心架构包含两个关键模块：Diffusion Planner (DiP) 和 RL跟踪控制器。DiP是一个实时响应的自回归扩散模型，根据文本提示和目标位置生成短期动作序列；RL控制器则负责执行这些动作，并通过物理仿真器反馈环境状态，形成闭环优化。系统支持动态调整扩散模型与仿真器的贡献权重，以适应不同任务复杂度。这种设计使得CLoSD能够处理从导航到物体交互的多样化任务，如“跳跃到目标”或“用拳击打物体” 。

创新之处

CLoSD的核心创新在于语义驱动的闭环控制和物理感知的扩散训练。首先，它通过文本提示（如“高踢腿”或“坐下”）直接控制动作风格，结合目标位置实现精确的任务描述，突破了传统控制器对预定义动作的依赖。其次，提出PhysDiff损失函数，在扩散模型训练中引入仿真器导数，强制生成的动作符合物理规律。此外，CLoSD在实时性上显著优化，DiP仅需10步扩散即可生成高保真动作，而RL控制器能即时修正扩散输出的微小误差，如接触动力学中的偏差。实验表明，该系统在任务切换（如“坐下”到“站起”）时仅需3帧过渡，且对未见任务组合的泛化成功率高达89%。

仿真也能微调了？

这篇文章提出了一种分阶段的仿真-现实策略迁移框架（SGFT）。其核心是通过仿真预训练和价值函数引导的实时微调实现高效适应：

仿真预训练阶段：在物理仿真器中训练基础策略（如使用强化学习或模仿学习），并同步学习一个仿真价值函数 _Vsim_，用于评估状态的任务相关性。
现实微调阶段：在真实环境中，利用 Vsim 生成密集奖励信号，通过潜在状态排序和有限时域优化缩短探索范围。例如，将无限时域RL目标替换为有限步长（H-step）目标，并基于_Vsim_ 对终端状态进行奖励重塑，从而加速收敛。
模型集成：结合模型基强化学习（MBRL），利用短时域动态预测和 Vsim 的引导，避免长时域误差累积。

SGFT的创新性体现在以下方面：

价值函数引导的探索：通过 Vsim 定义的状态优先级，将仿真中的高层行为结构（如“抓取-移动”序列）迁移到现实，即使低层动力学存在差异
时域缩短与偏差控制：理论证明了有限时域优化可减少探索复杂度，同时_Vsim_ 的奖励重塑避免了策略性能的初始退化（即“灾难性遗忘”问题）
样本效率突破：在五类灵巧操作任务中，SGFT仅需50-100次现实交互即可达到85%成功率，比传统方法快3-4倍，且无需真实数据预训练

强化学习+transformer 两大“杀器”可以产生什么威力

BodyGen是一种基于强化学习的形态-控制协同设计框架，通过Transformer架构同时优化机器人的形态结构和控制策略。其核心包含两个阶段：(1) 形态设计阶段，使用GPT风格的自回归模型生成机器人身体结构参数；(2) 环境交互阶段，采用BERT风格的Transformer处理关节信息并实现与环境的实时反馈。框架通过拓扑感知自注意力机制（MoSAT）实现关节间的消息传递，并引入拓扑位置编码（TopoPE）来高效表示动态演化的形态结构，从而支持轻量级模型（仅1.4M参数）下的复杂任务处理。此外，BodyGen采用混合循环执行策略，在仿真环境中预训练通用形态原则，再通过策略微调适配具体任务，显著提升了计算效率。

创新之处

BodyGen的核心创新在于解决了传统协同设计中的两大瓶颈：形态表示低效和奖励信号不平衡。首先，TopoPE通过编码二维拓扑结构，实现了跨形态的知识共享，使系统能快速适应新设计的身体结构。其次，时序信用分配机制动态平衡形态设计（零奖励引导）与控制优化（高奖励引导）阶段的奖励信号，避免了传统方法因奖励偏置导致的局部最优问题。实验表明，该框架在10项任务中平均性能提升60.03%，且样本效率比基线方法高25-30%。