chansonzhang-CSDN博客

原创 [2021] [RMA] [RMA: Rapid Motor Adaptation for Legged Robots]

本文提出RMA（快速运动适应）方法，用于四足机器人的实时在线适应控制。该方法采用基础策略π（100Hz）和适应模块φ（10Hz）的异步架构，其中π在仿真环境中利用特权信息训练，φ则通过历史数据推理环境编码。相比传统多步优化方法，RMA实现了一步推理的快速适应，避免了学习过程中的不稳定。通过最小化关节做功和地面冲击力等自然约束，系统在不平坦地形上表现出稳健步态。实验表明，RMA在保持低扭矩和平滑运动的同时，显著提升了适应速度和行走稳定性。当前方法仅依赖本体感知，未来将整合视觉等外体感知信息。

2026-04-15 21:20:06 14

原创 Google层叠实验系统介绍

如果同一层实验使用不同的分流方式，由于1%的user肯定比%1的random占用更多的流量，那么极端情况下处于后面位置的divertion type对应的实验也会有starvation的问题，所以实践中一般同一层采用统一的分流方式。如果因为实验系统的性能瓶颈拖慢了创新的进度，这是完全不能接受的事情。更复杂一点的可能实现是，一个实验被放入发布层之后，依然保持原来的流量占比，例如30%，剩下70%的流量依然用的是原来的默认参数，逐步将该实验放量至100%，就是逐步用新的默认值替换旧的默认值的过程。

2026-04-11 14:12:06 14

原创 [2015] [DDPG] [Continuous control with deep reinforcement learning]

本文介绍了DDPG（Deep Deterministic Policy Gradient）算法，这是一种将DQN思想扩展到连续动作空间的深度强化学习方法。DDPG结合了DPG（Deterministic Policy Gradient）和神经网络近似，采用model-free、off-policy的actor-critic架构。针对连续动作空间问题，DDPG直接使用actor网络输出动作，避免了离散化带来的维度灾难和信息丢失。为确保稳定性，DDPG引入了经验回放缓存（replay buffer）、目标网络（

2026-04-11 13:55:45 23

原创 [2017] [Option-Critic] [The Option-Critic Architecture]

本文提出了Option-Critic架构，通过端到端方式学习内部策略和终止条件，仅需指定选项数量。该架构包含选项策略$π_Ω$、内部策略$π_{ω,θ}$和终止函数$β_{ω,ϑ}$，目标是最大化期望回报。论文基于策略梯度理论推导出两个关键定理：内部策略梯度定理和终止梯度定理，分别优化策略参数θ和ϑ。算法采用双时间尺度更新，其中价值函数快速学习，策略和终止函数缓慢更新。当高层策略贪心时，其更新目标等价于intra-option Q-learning。该架构能自动学习选项，避免了手工设计选项的繁琐过程。

2026-04-09 22:37:24 16

原创 [1999] [Actor-Critic] [Actor-Critic Algorithms]

本文提出Actor-Critic算法框架，结合了Actor-Only和Critic-Only方法的优势。通过理论分析证明，在满足策略可导性假设(A1)和状态分布假设(A2)条件下，平均损失函数的梯度可表示为状态-动作价值函数q与策略特征ψ的内积。创新性地引入投影算子Π，将高维q函数的学习转化为其在低维策略特征空间Ψθ上的投影学习，显著降低了计算复杂度。最后给出了基于双时间尺度随机逼近的算法实现方案，其中Critic通过参数化Q函数进行学习，Actor则利用Critic提供的梯度信号更新策略参数。

2026-04-08 12:04:03 11

原创 [1999] [Policy Gradient] [Policy Gradient Methods for Reinforcement Learning with Function Approxim]

本文提出了强化学习中策略梯度方法的理论基础和函数逼近技术。通过策略梯度定理（Theorem 1）建立了策略参数θ与期望回报ρ之间的梯度关系，证明过程中运用了状态值函数V^π和动作值函数Q^π的递归性质。研究进一步探讨了函数逼近方法，其中f_w作为Q^π的近似，通过最小二乘优化进行更新（Theorem 2）。当满足特定条件（式4）时，策略梯度可以精确表示为f_w的加权和（式5）。最后，以softmax策略为例，推导了具体参数更新公式，展示了该理论框架在实际算法中的应用。这项工作为后续策略梯度算法的发展奠定了重

2026-04-04 21:53:50 13

原创 [1999] [Options] [Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in RL]

本文提出了强化学习中时间抽象的Option框架。Option定义为三元组<I,π,β>，包含初始状态集、内部策略和终止条件。该框架将多步动作序列视为基本单位，推导了Option下的状态价值函数(8)和动作价值函数(9)表达式，证明了当Option退化为单步动作时与标准MDP价值函数的一致性。文章还讨论了最优Option价值函数(10-12)、可中断Option机制、Option内部学习算法(21)以及子目标学习方法，并分析了该框架的局限性：需要领域知识构造Option、跨环境泛化性差等。最后探讨

2026-04-01 19:40:28 13

原创 [2018] [TD3] [Addressing Function Approximation Error in Actor-Critic Methods]

TD3 (Twin Delayed DDPG) 针对DDPG的Q值高估问题提出三点改进：1) 采用双Q网络互相裁剪目标值，取较小值抑制高估；2) 延迟策略更新，先充分优化Critic；3) 目标动作添加裁剪噪声平滑Q函数。这些方法有效缓解了贝尔曼方程中最大化操作导致的系统性高估偏差，同时通过固定一个Q网络进行策略更新避免双网络干扰。实验表明TD3显著提升了Actor-Critic方法的性能稳定性和样本效率。

2026-03-27 22:19:50 32

原创 [2016] [A3C] [Asynchronous Methods for Deep Reinforcement Learning]

摘要：2016年提出的A3C算法通过异步并行多个智能体与环境交互并更新全局模型，解决了深度强化学习的不稳定性问题。相比DQN和Gorila DQN，A3C采用多线程CPU实现，无需GPU或参数服务器，通过共享内存异步更新。其创新点包括：1) 取消经验回放，支持on/off-policy；2) 采用前向视角计算n步回报；3) 引入策略熵增加探索。同步版本A2C性能相当甚至更优。算法使用RMSProp优化，在策略梯度中结合优势函数和熵正则项，实现了高效稳定的深度强化学习训练。

2026-03-24 11:38:12 16

原创各种优化器的比较

本文概述了几种优化算法的核心思想：SGD直接沿负梯度方向更新参数，但可能在非均向函数中呈现低效的"之"字形路径；Momentum引入速度变量，通过积累梯度动量来抑制震荡方向的更新，加速稳定方向的收敛；AdaGrad为每个参数自适应调整学习率，通过历史梯度累加抑制频繁变动参数的更新幅度，其改进版RMSProp采用指数移动平均来避免过早停止更新；Adam结合了Momentum和AdaGrad的优点，同时考虑梯度的一阶矩（均值）和二阶矩（方差）进行更智能的参数更新。这些算法逐步解决了基础SGD

2026-03-24 11:07:02 27

原创 [2015] [GAE] [High-Dimensional Continuous Control Using Generalized Advantage Estimation]

摘要：2015年提出的广义优势估计(GAE)方法通过指数加权平衡了策略梯度算法中优势函数估计的方差与偏差。该方法在蒙特卡洛(高方差)和时序差分(高偏差)方法间引入λ参数进行折中，利用(γλ)^l加权降低远期误差影响。GAE通过价值函数解决延迟奖励问题，其中γ控制长期回报重要性，λ作为纯算法参数调节估计偏差。当λ=1时为无偏蒙特卡洛估计，λ=0为低方差TD估计，中间值实现最优平衡。该方法统一了策略梯度形式，通过优势函数A=Q-V有效评估动作价值，并使用TD残差δ_t^V=r_t+γV(s_{t+1})-V(s

2026-03-23 21:18:46 14

原创 [2015] [Gorila DQN] [Massively Parallel Methods for Deep Reinforcement Learning]

本文提出了Gorila DQN，一种并行化的深度强化学习方法。通过在分布式系统中引入Parameter Server、Learner和Actor三种组件，大幅提升了DQN的训练效率：在Atari游戏上仅需4天即可达到优于单机DQN12-14天训练的效果。系统采用分布式经验回放机制，并提供多种稳定性保障措施，包括梯度延迟处理、异常值过滤和共享RMSProp优化算法。这些创新使得深度强化学习能够在保持训练稳定性的同时，充分利用大规模并行计算资源。

2026-03-22 17:58:15 14

原创 [2015] [DQN] [Human-level control through deep reinforcement learning]

摘要：Deep Q-Network (DQN) 是深度强化学习的里程碑式算法，通过卷积网络近似Q函数，结合经验回放和目标网络解决训练不稳定性问题。其创新包括：1）采用帧堆叠和预处理处理高维输入；2）使用ε-greedy策略平衡探索与利用；3）通过奖励裁剪和Huber损失稳定训练。在49款Atari游戏中达到人类水平，证明了深度网络直接从像素学习控制策略的可行性。关键技术如经验回放、目标网络等成为后续深度RL的基础，但存在计算成本高、超参敏感等局限，为优先经验回放等改进方向奠定基础。

2026-03-21 01:07:46 32

原创 [2026] [LATENT] [Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data]

摘要：该研究提出LATENT方法，通过分层控制框架让人形机器人从有限且不完美的人类网球动作数据中学习技能。首先收集5名业余选手的基础动作数据，经重定向处理后训练底层动作追踪器，再蒸馏到潜在动作空间模型。高层策略通过PPO强化学习在潜在空间中进行调整，结合动作屏障确保动作自然性。仿真训练采用动力学随机化和观测噪声增强泛化能力，最终在真实机器人上成功实现连续击球任务。当前方法依赖外部动作捕捉系统，未来需引入主动视觉和多智能体训练以实现更复杂的网球对抗。

2026-03-20 20:18:02 39

原创 [2018] [SAC] [Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stoc]

摘要：Soft Actor-Critic (SAC)是一种基于最大熵的深度强化学习算法，通过引入随机策略和熵最大化目标，解决了DDPG算法的不稳定性和超参数敏感问题。SAC采用重参数化技巧实现梯度传播，使用双Q函数缓解策略偏差，并通过自动调节温度参数平衡探索与利用。相比PPO等算法将熵作为正则项，SAC将熵内化在Q值中，形成"奖励+熵"的优化目标。实验表明，SAC的随机策略比确定性策略具有更好的探索能力和稳定性。该算法通过soft policy evaluation和improvemen

2026-03-18 21:20:16 33

原创 [2025] [self-improving-efms] [Self-Improving Embodied Foundation Models]

摘要：DeepMind提出的Self-Improving Embodied Foundation Models（EFM）是一种两阶段自改进具身智能模型。第一阶段通过监督学习（SFT）进行行为克隆和步数预测，第二阶段采用在线强化学习（Self-Improvement）自动优化策略，利用冻结的SFT模型计算奖励和检测成功，避免了手动设计奖励的局限性。该方法基于REINFORCE算法进行策略梯度更新，移除了致命三元组中的两个风险因素（离策略和自举），提高了稳定性。EFM以PaLI-3B VLM为基础模型，通过to

2026-03-18 10:53:20 16

原创 [2017] [PPO] Proximal Policy Optimization Algorithms

PPO（近端策略优化）是TRPO的简化改进版，属于on-policy方法。其核心创新是采用clip裁剪机制约束策略更新幅度，替代TRPO复杂的KL散度约束。通过限制新旧策略概率比在1±ε范围内，既保证稳定性又简化实现。PPO对裁剪和未裁剪目标取最小值进行优化，实际优化目标函数下界。相比TRPO，PPO实现更简单、采样效率更高、性能更好，同时保持了策略更新的稳定性。实验表明clip机制效果优于KL惩罚，成为强化学习领域广泛采用的高效算法。

2026-03-17 11:32:13 38

原创 [2015] [TRPO] [Trust Region Policy Optimization]

本文介绍了Trust Region Policy Optimization (TRPO)算法的核心思想及其实现方法。TRPO是一种近似on-policy的优化算法，通过行为策略数据评估目标策略，并利用KL散度约束确保两者差距不大。算法采用二阶近似处理KL约束，将Fisher信息矩阵作为Hessian矩阵，使用共轭梯度法求解优化问题。相比KL罚项方法，TRPO采用KL约束允许更大的更新步长，提高了收敛速度。实现时通过线性近似目标函数、二次近似约束条件，并配合回溯线搜索确定最优步长，适用于大规模非线性策略优化问

2026-03-17 11:28:10 28

原创 [2023] [RT-2] Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2是一种将视觉语言模型(VLM)知识迁移到机器人控制的模型。它通过将连续动作离散化为文本token，利用VLM的保留token空间表示动作指令。模型采用机器人轨迹和网络视觉语言数据共同微调，逐步增加机器人数据权重，既学习低级控制又保留语义理解。RT-2直接输出末端执行器笛卡尔坐标指令，突破了传统分层控制中低级控制器无法利用大模型语义的局限。部署测试显示55B参数模型响应时间为0.3-1秒。当前局限在于无法生成全新动作，未来可通过引入人类操作视频(如SWIM)来增强动作泛化能力。

2026-03-17 11:24:43 27

原创 [2023] [SWIM] Structured World Models from Human Videos

摘要：StructuredWorldModelsforIntentionality(SWIM)提出了一种新方法，通过训练可供性模型和世界模型来预测动作结果，解决现有方法依赖奖励结构、目标定义困难等问题。SWIM利用人类操作视频预训练，构建形态无关的高级结构化动作空间（如抓取点和停留点），并通过经典控制理论与数据驱动结合实现迁移。模型输入当前图像和目标图像，输出高层动作序列，使用CEM优化和开环控制执行。该方法无需任务监督，只需机器人执行视觉启示动作即可微调，为多任务学习提供了有效解决方案。

2026-03-17 11:21:57 13

原创 Windows 安装 DeepSpeed

Windows 安装 DeepSpeed

2024-06-25 21:02:38 1503

原创 Training language models to follow instructions with human feedback

InstructGPT: SFT + RLHF with PPO（目标函数：RM - KL+PTX objective）

2024-04-02 16:21:53 526

原创 Finetuned Language Models Are Zero-Shot Learners

指令微调模型 FLAN 显著提升 zero-shot 能力

2024-03-30 16:36:47 734

原创 LaMDA: Language Models for Dialog Applications

通过标注数据微调和工具调用来提升对话模型的 safety 和 groundedness

2024-03-27 11:00:06 460

原创 Learning to summarize from human feedback

使用强化学习微调总结生成模型

2024-03-19 17:32:12 468

原创西安雁塔未来人工智能计算中心算力成本分析

西安雁塔未来人工智能计算中心的算力大概花了多少钱

2024-03-05 22:19:54 1513

原创 Fine-Tuning Language Models from Human Preferences

在人类偏好上训练奖励模型，然后使用强化学习微调预训练语言模型

2023-12-30 12:57:21 1399

原创西瓜书公式（10.31）的推导

与 Isomap 试图保持近邻样本之间的距离不同，局部线性嵌入（Locally Linear Embedding, 简称 LLE）试图保持邻域内样本之间的线性关系。西瓜书 10.5.2 节局部线性嵌入。表示要求特征向量是单位向量）。则式 (10.29) 可重写为。LLE 在低维空间（维度为。进行特征值分解后最小的。个特征值对应的特征向量（LLE 先为每个样本。

2023-07-22 19:50:53 286