Doc.S-CSDN博客

原创无折扣形式策略梯度：深度解析与关键形式

用奖励/价值引导策略更新，同时尽可能降方差、提效率。而优势函数，正是这一路进化的“集大成者”——平衡了方差、解释性和实用性，成为深度强化学习（如 PPO、A2C 等算法）的基石。如果你在做强化学习项目，不妨从优势函数入手，搭配 Actor-Critic 框架，感受策略梯度的强大优化能力。当然，也别忽略其他形式的价值——比如 TD 误差适合快速迭代场景，基础形式帮你理解梯度本质。掌握这些，策略梯度的优化逻辑就不再晦涩，接下来就是放手实践，让智能体在环境中“一路狂飙”拿高分啦～

2025-06-10 19:04:51 550

原创 PPO实现gym任务模板（以cartpole为例）

【代码】PPO实现gym任务模板（以cartpole为例）

2025-06-10 12:26:01 240

原创因果推断中 P(Y|X) 和 P( Y|do（x)）的区别

以及是否排除了混淆变量的影响。的观测分布，而P(Y|do(X)) 对应。在因果图中，( P(Y|X) ) 对应。它们的本质区别在于是否涉及。是两个核心概念，用于区分。

2025-06-10 11:46:12 505

原创因果推断后门准则具体例子

若直接拟合模型 (Y = \beta_0 + \beta_1 X + \epsilon)，系数(\beta_1) 可能仅反映相关性，而非因果性。假设原始数据中，服药组康复率为40%，未服药组为30%，表面上药物有效。通过后门调整，分层分析明确分离了年龄的影响，确保组内比较的公平性（即同年龄组内服药与未服药患者的差异仅由药物引起）。其中，(P(Y|do(X))) 表示干预X（强制服药）时Y的分布，通过对Z分层求和消除混杂。：研究某新型药物（X）对心脏病患者康复（Y）的因果效应，需排除年龄（Z）的混杂影响。

2025-06-08 01:51:17 906

原创 window10系统下载Carla0.9.14版本

今天花了一些时间在windows系统上安装自动驾驶模拟环境Carla，简单记录一下。

2025-06-08 00:06:47 754

原创强化学习中的数据Shuffling（洗牌）

算法类型是否需要洗牌关键原因DQN、SAC ✅ 需要依赖经验回放，需打破样本间时序相关性PPO、A2C ❌ 不需要优势函数计算依赖时序，在线策略无需历史数据基于 LSTM 的序列模型 ❌ 不需要网络结构显式建模时序依赖行为克隆（专家轨迹） ❌ 不需要需保留专家演示的动作顺序。

2025-06-07 17:27:44 848

原创强化学习概念辨析（On-line，Off-line）

在线学习是一种机器学习范式，其核心特点是智能体（或模型）通过与环境的实时交互逐步获取数据，并在每一步数据获取后立即更新模型参数。整个过程呈现 “数据采集→模型训练→决策优化” 的动态循环，类似于人类通过持续实践不断积累经验的过程。离线学习是一种传统的机器学习范式，其核心特点是智能体（或模型）在训练阶段完全基于预先收集的静态数据集进行学习，训练完成后直接用于部署和决策。整个过程分为数据收集→批量训练→固定部署三个独立阶段，类似于人类通过 “复习已有知识” 掌握技能的过程。

2025-06-07 01:36:36 1188

原创强化学习概念辨析（On-policy，Off-policy）

如有不全面或者不对的地方，还请大家评论区留言，进行增删。首先给出二者定义：On-policy:用于与环境交互的交互策略与算法不断优化（评估）的目标策略为同一策略。Off-policy:用于与环境交互的交互策略与算法不断优化（评估）的目标策略为不同策略。当然，只看上述定义还是很难理解二者之间的具体区别，接下来将对两种经典的强化学习算法（Sarsa，Q-learning）进行分析，并通过二者之间的区别详细阐述On-policy和Off-policy之间的区别。

2025-06-06 18:21:47 909