-一杯为品--CSDN博客

原创【基于模型的强化学习】#1 引论：Dyna架构

环境的（Model）是一个智能体可以用来预测环境对其动作的反应的任何事物。给定一个状态和一个动作，模型能产生后继状态和下一个收益的预测作为环境的反应结果。根据是否有模型参与，强化学习算法可分为（Model-Based RL，MBRL）和在【深度强化学习】和【分层强化学习】中，我们探讨的都是MFRL，它们将环境视为一个黑箱，智能体直接从与环境交互获得的经验数据中学习价值函数或策略，而不会尝试理解环境的内部运作机制。

2025-12-17 20:55:29 483

原创【机器人学|运动学与动力学】#1 齐次变换矩阵

摘要本文介绍了机器人学中的齐次变换矩阵及其应用。主要内容包括：位姿描述：通过位置矢量和旋转矩阵表示物体在空间中的位置和姿态。旋转矩阵的行列具有特殊几何意义，且不同坐标系间的旋转矩阵互为转置。变换映射：推导了坐标系间位置和姿态都不同时的变换公式，引入齐次变换矩阵简化计算。齐次变换矩阵包含旋转矩阵和位置矢量，可统一表示一般变换。变换算子：介绍了平移和旋转两种基本变换算子。平移算子用齐次矩阵表示位移，旋转算子通过绕坐标轴的基本旋转矩阵组合实现任意旋转。文中给出了绕X/Y/Z轴的旋转矩阵具体形式。齐次变换

2025-12-12 22:15:56 697

原创【分层强化学习】#7 HAC：从双层到多层的高效实现

HAC（分层演员-评论家）通过系统性设计解决了深度分层强化学习从双层到多层的关键难题。其创新点包括：1）采用嵌套策略架构，通过UMDP定义各层任务；2）提出事后动作转移和事后目标转移机制，利用HER思想修正经验，缓解非平稳性和稀疏奖励问题；3）引入子目标测试，帮助高层策略及时跟踪低层策略能力变化。这些方法共同构建了一个稳定高效的多层学习框架，实现了真正有效的分层策略学习。HAC为复杂任务的分解与学习提供了重要思路，推动了分层强化学习的实际应用。

2025-11-30 16:16:10 1018

原创【分层强化学习】#6 HIRO：离轨策略经验校正

本文介绍了HIRO（带离策略校正的分层强化学习）算法，用于解决分层强化学习中低层策略更新带来的偏差问题。HIRO采用双层策略架构：高层策略每c步生成目标，低层策略基于状态和目标执行动作。低层策略使用内部奖励训练，高层策略通过离策略校正复用经验，避免重要度采样的高方差问题。其核心创新是修正旧经验中的目标，使新低层策略能复刻旧动作序列，从而稳定训练。算法通过确定性策略和动作重标记技术实现了高效的经验复用，在保持稳定性的同时提高了数据利用率。

2025-11-23 11:01:29 882

原创【分层强化学习】#5 FeUdal Networks：管理者-工人架构

FeUdal Networks（FuN）是一种分层强化学习框架，包含管理者（高层决策）和工人（底层执行）两个模块。管理者通过RNN生成目标向量，工人则结合状态和目标输出动作。FuN的创新包括：1）固定时间步间隔的目标更新，提高训练稳定性；2）目标向量与工人输出的矩阵相乘机制，实现解耦学习；3）为管理者设计基于状态转移方向余弦相似度的独立训练信号；4）为工人设置混合奖励（外部+内部）进行训练。FuN通过转移策略梯度理论证明其有效性，管理者只需指定期望状态转移，而工人负责具体实现。这种分层结构实现了高层规划与底

2025-11-18 22:10:07 769

原创【分层强化学习】#4 Option-Critic：可学习的选项框架

摘要 Option-Critic（OC）架构基于Actor-Critic框架，通过可学习的选项（option）实现任务自动化分解。每个选项由内部策略和终止函数组成，通过环境奖励而非人为设计进行学习。OC定义了三个价值函数：选项价值函数、动作价值函数和抵达时价值函数，并通过梯度定理推导出内部策略和终止函数的优化方法。该框架突破了传统子目标依赖人工设定的局限，但牺牲了选项的可解释性和可重用性。OC的创新在于让模型自主发现和学习子目标，推动了分层强化学习向更高自动化方向发展。

2025-11-15 13:31:30 621

原创【分层强化学习】#3 UVFA & h-DQN：通用值函数与目标泛化

分层强化学习十余年发展受限于专家知识依赖与表格型算法瓶颈，直至深度强化学习兴起才取得突破。UVFA（通用值函数逼近器）通过将目标作为值函数输入，利用神经网络实现任务间的知识共享与泛化。h-DQN（分层深度Q网络）进一步结合分层思想，采用元控制器-控制器双层架构：元控制器负责选择子目标以优化环境奖励，控制器执行具体动作以优化内部奖励。二者分别训练Q网络，通过经验回放与$\epsilon$-贪心策略实现高效学习。该框架为解决复杂任务中的长期规划与稀疏奖励问题提供了新思路。

2025-11-13 22:32:41 991

原创【分层强化学习】#2 MAXQ：值函数分解

MAXQ是一种分层强化学习方法，通过任务分解和值函数分解解决复杂问题。它将MDP任务分解为多个子任务（如导航、接送乘客等），每个子任务由三元组描述（终止谓词、动作集合和伪奖励函数）。MAXQ采用分层策略执行机制，通过执行栈管理任务上下文，并使用投影值函数（V值和Q值）进行递归学习。值函数分解通过完成函数C连接父子任务之间的收益关系。该方法能将复杂任务拆解为可管理的子问题，并通过MAXQ图可视化任务间的递归关系，有效提升强化学习的可扩展性和效率。

2025-11-11 15:52:20 696

原创【分层强化学习】#1 引论：选项框架与半马尔可夫决策过程

在传统强化学习框架中，对于一个任务，智能体将从一个初始状态开始，在每一个时间步进行决策，直至到达终止状态后，所获得的经验将被用于更新每一个状态下的策略。正是这些问题催生了（Hierarchial Reinforce Learning，HRL）这一分支。引论将顺便介绍两个概念：选项框架和半马尔可夫决策过程，它们为HRL奠定了思想基石。

2025-11-06 23:02:14 1016

原创【深度强化学习】#6 TRPO&PPO：策略优化算法

本文摘要：TRPO（Trust Region Policy Optimization）是强化学习中一种策略优化方法，旨在解决Actor-Critic算法中策略更新步长设置难题。核心思想是通过KL散度约束确保新旧策略差异不超过信任区域范围，从而避免更新幅度过大导致的性能退化。TRPO构建了包含优势函数的优化目标，并以期望KL散度作为约束条件，通过泰勒展开、拉格朗日乘子法和共轭梯度法求解。该方法在保证策略提升的同时，实现了学习过程的稳定性和可靠性，为随机性策略优化提供了重要技术路线。

2025-11-04 22:53:23 611

原创【深度强化学习】#7 Soft Actor-Critic：最大熵与重参数化技巧

SAC（Soft Actor-Critic）是一种基于最大熵强化学习的Actor-Critic方法，通过引入策略熵来增强探索能力。相比确定性策略方法，SAC采用随机性策略和重参数化技巧，既降低了方差又提高了采样效率。其核心创新在于：1）在目标函数中引入策略熵项，鼓励多样化的探索；2）使用重参数化技巧将随机性与策略参数解耦，实现更稳定的梯度传播。SAC在连续控制任务中展现出优异的样本效率和鲁棒性，成为当前强化学习领域的重要算法。

2025-11-03 21:12:02 620

原创【深度强化学习】#5 DDPG&TD3：确定性策略梯度的改进

摘要：本文介绍了两种基于DPG算法的改进方法——DDPG和TD3。DDPG通过引入经验回放和目标网络（采用软更新策略）解决了深度神经网络训练中的不稳定问题，并利用离轨策略探索优化动作选择。TD3在DDPG基础上进一步改进，采用双Critic网络减少Q值高估，通过目标策略平滑增强Q函数稳定性，并引入延迟策略更新以避免早期训练中的不稳定。两种算法均针对深度强化学习中的实际问题提出了有效解决方案，显著提升了训练效果和稳定性。（150字）

2025-11-01 20:16:19 713

原创【万字纪实】小脑不发育的恐水两栖四轮足机器人

如果你觉得你很没用的话，不妨看看我们做的机器人吧……

2025-11-01 14:10:18 1213

原创【SayCan】LLM+价值函数：以言为引，量力而行

本文介绍了SayCan框架，该研究通过将大语言模型（LLM）的语义理解能力与机器人示能函数相结合，实现了自然语言指令到机器人动作的转化。论文提出了一种创新方法：用LLM提供任务基础（解析指令），同时利用示能函数提供世界基础（评估执行可行性），二者协同决策。实验表明，在模拟厨房环境中，该系统能有效完成简单指令，规划成功率达84%。研究还探讨了当前局限性和未来方向，如技能库扩展、失败恢复机制等。这项工作为LLM与机器人技术的结合提供了开创性范例。

2025-10-19 23:04:54 951

原创【深度强化学习】#4 DPG：确定性策略梯度

本文介绍了确定性策略梯度（DPG）算法及其理论依据。DPG通过输出确定性动作解决了随机策略在连续动作空间中的计算开销、方差问题和训练不稳定等缺点。文章详细推导了确定性策略梯度定理，证明其只需对状态空间积分，比随机策略梯度更简洁。DPG采用Actor-Critic框架，Actor网络输出确定动作，Critic网络评估动作价值，通过离轨策略提升状态探索性。文章还分析了DPG的局限性，如依赖于行为策略的状态探索，这为后续DDPG算法发展奠定了基础。

2025-10-17 20:39:56 848

原创【博客规划】关于我未来的研究方向……

本文记录了哈工大智能机器人专业本科生选择实验室课题的思考过程。作者从三个前沿课题中选择了"基于大语言模型的六足机器人决策框架"这一最具挑战性的方向，认为学术界应承担创新风险而非重复工业界可完成的工作。文章分享了选择背后的考量，包括课题的前沿性、成果可见性以及对通用机器人发展的期待，同时预告了即将发布的万字项目纪实。这一选择也预示着作者未来博客内容将聚焦具身智能方向，控制理论系列将暂缓更新。

2025-10-16 21:47:32 433

原创【深度强化学习】#3 Actor-Critic：从QAC到A3C/A2C

本文介绍了Actor-Critic算法及其变体的基本原理。Actor-Critic结合策略梯度和价值函数近似，Actor负责决策动作，Critic评价动作质量。QAC算法用Q函数替代REINFORCE中的G_t，采用SARSA更新Q网络。AAC算法引入优势函数A=Q-V，通过V函数和TD误差估计优势。为解决数据相关问题，A3C采用多智能体并行异步更新，而A2C改进为同步更新，使训练更稳定。这些方法通过价值函数估计降低方差，结合策略梯度实现高效学习。

2025-10-12 19:57:55 559

原创【控制理论】#5 比例积分控制

本文以电机速度控制为例，分析了比例控制和积分控制两种基本控制策略。通过建立系统微分方程和拉普拉斯变换，推导了比例控制下存在稳态误差的现象，其误差大小为(r+C)/(Kp+1)。积分控制的引入通过积分项消除稳态误差，但将系统转化为二阶响应，分析了其动态特性参数与积分增益KI的关系。研究结果表明：比例控制无法完全消除稳态误差，而积分控制虽然能消除稳态误差但会引入超调等动态特性变化。文章还介绍了终值定理在控制系统分析中的应用。

2025-10-10 20:39:02 818

原创【深度强化学习】#2 策略梯度定理与REINFORCE

本文介绍了策略梯度（Policy Gradient）方法，这是一种直接学习策略函数的强化学习算法。策略函数通过参数化表示，使用softmax函数输出动作概率分布。目标函数采用期望回报最大化，通过梯度上升优化策略参数。文章推导了策略梯度的数学表达式，并分析了其无偏性和方差问题。针对蒙特卡洛策略梯度（REINFORCE）算法的高方差问题，提出了引入基线函数（如状态价值函数）的改进方法，将其转化为优势函数估计，从而在保持无偏性的同时降低方差。这种方法为后续Actor-Critic算法奠定了基础。

2025-10-08 14:20:52 721

原创【控制理论】#4 稳定性

本文讨论了系统稳定性的定义与分析方法。首先介绍了李雅普诺夫稳定性，即在给定容忍范围内，系统状态能保持在平衡点附近；而渐进稳定性要求状态变量最终收敛于平衡点。通过传递函数分析，指出极点位置决定稳定性：左半平面极点对应渐近稳定，虚轴上极点对应李雅普诺夫稳定。在状态空间方程中，状态矩阵特征值实部符号决定稳定性类型。稳定性分析为控制系统设计提供了理论基础，有助于实现满足要求的稳定控制。

2025-10-04 12:00:53 813

原创【千粉纪念】我写博客的这一年

本文记录了作者从绘画创作转向技术博客写作的心路历程。在经历绘画创作缺乏正反馈的挫败后，作者发现技术博客能同时满足学习记录、知识分享和个人成长需求。虽然初期因CSDN平台虚假粉丝而受挫，但通过优化学习规划（使用Obsidian和Notion Calendar工具）、调整知识体系构建方式，最终建立起高效的学习-输出闭环。文章展现了大学生在学业压力与个人兴趣间的平衡探索，以及通过自我迭代实现认知升级的过程，核心矛盾始终围绕"如何建立可持续的创作激励系统"展开。

2025-10-02 22:17:23 630

原创【深度强化学习】#1 DQN：深度Q学习

本文介绍了深度强化学习开山之作DQN算法，重点介绍了其核心思想与关键技术改进。首先阐述了传统Q-learning在连续状态空间下的局限性，提出用神经网络拟合Q函数的价值函数近似方法。完整介绍了DQN算法流程后，针对原始算法存在的两大问题：数据相关性和训练不稳定性，分别引入经验回放和目标网络两项关键技术。经验回放通过缓存和随机采样eph果克服数据相关性问题；目标网络通过解耦评估与目标计算来稳定Q值收敛。最后进一步提出Double DQN改进方案，abl的关键在于解耦动作选择与评估过程，以缓解最大化操作带来的高

2025-10-01 23:07:19 920

原创【控制理论】#3 一阶系统与二阶系统的时域响应分析

一阶和二阶系统时域响应分析研究系统在输入信号作用下的输出特性。一阶系统传递函数为G(s)=b/(s+a)，其冲激响应为x(t)=be^(-at)，阶跃响应为x(t)=(b/a)(1-e^(-at))，时间常数τ=1/a反映响应速度。二阶系统传递函数含固有频率ω_n和阻尼比ζ，不同ζ值对应不同响应：ζ>1为过阻尼稳定节点，0<ζ<1为欠阻尼振荡收敛。实验可测量关键参数确定系统特性。

2025-09-29 18:40:23 1077

原创【足式机器人算法】#2 奖励函数设计

本文系统阐述了足式机器人强化学习框架中的关键要素，重点解析了奖励函数的设计原理。观测空间包含本体感知、环境信息和任务指令；动作空间分为扭矩、速度/位置和步态三个层级，其中关节位置控制是主流方案。论文示例的奖励函数包含六大类：跟踪奖励（速度匹配）、稳定性奖励（抑制异常运动）、效率奖励（降低能耗）、平滑度奖励（减少抖动）、步态奖励（优化足端运动）和碰撞惩罚。这些奖励项通过加权组合，在保证运动性能的同时提升运动质量和能效。研究表明，合理的奖励函数设计是训练高性能足式机器人策略的关键所在。

2025-09-27 16:50:31 1112

原创【足式机器人算法】#1 强化学习基础

本文介绍了强化学习在足式机器人控制中的应用优势。传统方法依赖精确模型，而强化学习通过交互式学习适应复杂环境。文章概述了强化学习的核心要素：感知、行动和目标导向的累积奖励最大化，以及历史、状态、策略、奖励、价值函数等概念。同时比较了价值与策略方法、模型相关与无关方法、表格与近似法等不同算法分类。最后指出深度强化学习能处理大规模连续状态空间问题，为后续机器人控制算法学习奠定基础。

2025-09-26 18:50:55 612

原创【控制理论】#2 状态空间方程与相轨迹分析

状态空间方程是现代控制理论的基础，它以矩阵的形式，用一系列一阶微分方程表达系统状态变量、输入及输出之间的关系。状态空间方程可以将高阶微分方程转化为一阶微分方程组。考虑上图所示的弹簧质量阻尼系统，它的动态微分方程为md2x(t)dt2+bdx(t)dt+kx(t)=f(t)m\frac{\mathrm d^2x(t)}{\mathrm dt^2}+b\frac{\mathrm dx(t)}{\mathrm dt}+kx(t)=f(t)mdt2d2x(t)+bdtdx(t)+kx(t)=f(t)其中x(

2025-09-25 16:52:51 963

原创【MuJoCo】#4 机械臂运动学分析与控制

机械臂设计与建模回顾【机器人学导论】Ep3.操作臂（正向）运动学，机械臂的设计参数由 D-H 表示法给出：本节演示使用三自由度机械臂：在我们的简化模型中，两个连杆是位于同一平面的直杆，因此 αi\alpha_iαi 和 did_idi 均为 0（除了 α0=90∘\alpha_0=90^\circα0=90∘），只需给出连杆长度 did_idi 即可。θi\theta_iθi 作为关节变量需配置其运动范围。下面这个机械臂参数类除了运动学相关参数，还定义了一些外观参数：回顾一下【机器人学导论】

2025-09-23 14:51:30 930

原创【MuJoCo学习笔记】#3 模型程序化创建、验证与优化

本节静态渲染代码均采用如下形式，因此后文将省略。

2025-09-23 14:29:00 1114

原创【MuJoCo学习笔记】#2 接触动力学腱系统执行器传感器

edgetrackcomdmin, dmaxdmaxdminwidthwidthexponentestiffnesskdFdk⋅dmax−dmind−dminetrack在遍历总数为nframe的视频帧的过程中，原速下每一帧截取的间隔为1/fps，在n倍速下则应为n/fps，故第i帧的时刻为ni/fps。上一篇末尾我们提到如何记录分析仿真运动数据，由于这一步代码冗长、重复度高，且matplotlib。

2025-09-23 14:26:53 2203

原创【MuJoCo学习笔记】#1 物理仿真入门

（Multi-Joint Contact with dynamics）是一个先进的物理模拟器，可以高效、精确地模拟复杂的物理系统，特别是那些涉及大量关节（如机器人、人体）和复杂接触（如碰撞、摩擦）的系统，被广泛应用于机器人设计与强化学习领域。

2025-09-11 16:16:57 1254

原创【控制理论】#1 控制系统与传递函数

主要参考学习资料：《控制之美》王天威编著。

2025-05-26 19:55:18 1261 2

原创【深度学习】#13 预训练语言模型

本章是根据《动手学深度学习》编写的系列最终章。对于原书，该系列省略了第12章计算性能（以计算资源为主）和第15章自然语言处理：应用（以实践为主）。同时本章在原书第14章的基础上，舍去了BERT模型的内容，重点介绍了其一笔带过的GPT模型（考虑到现今GPT的发展势头更好）。当然，对深度学习的探索远不止于此，还有大量的应用场景、模型架构和更深入、更综合、更前沿的知识亟待我们去学习。博主将在补足其他领域知识体系、明确更进一步的学习方向后，继续开拓这一方面的内容。概述一般的分类模型使用独热向量来表示分类数据，即对于

2025-05-24 20:43:37 1196

空空如也

空空如也