- 博客(9)
- 收藏
- 关注
原创 无折扣形式策略梯度:深度解析与关键形式
用奖励/价值引导策略更新,同时尽可能降方差、提效率。而优势函数,正是这一路进化的“集大成者”——平衡了方差、解释性和实用性,成为深度强化学习(如 PPO、A2C 等算法)的基石。如果你在做强化学习项目,不妨从优势函数入手,搭配 Actor-Critic 框架,感受策略梯度的强大优化能力。当然,也别忽略其他形式的价值——比如 TD 误差适合快速迭代场景,基础形式帮你理解梯度本质。掌握这些,策略梯度的优化逻辑就不再晦涩,接下来就是放手实践,让智能体在环境中“一路狂飙”拿高分啦~
2025-06-10 19:04:51
550
原创 因果推断中 P(Y|X) 和 P( Y|do(x))的区别
以及是否排除了混淆变量的影响。的观测分布,而P(Y|do(X)) 对应。在因果图中,( P(Y|X) ) 对应。它们的本质区别在于是否涉及。是两个核心概念,用于区分。
2025-06-10 11:46:12
505
原创 因果推断后门准则具体例子
若直接拟合模型 (Y = \beta_0 + \beta_1 X + \epsilon),系数(\beta_1) 可能仅反映相关性,而非因果性。假设原始数据中,服药组康复率为40%,未服药组为30%,表面上药物有效。通过后门调整,分层分析明确分离了年龄的影响,确保组内比较的公平性(即同年龄组内服药与未服药患者的差异仅由药物引起)。其中,(P(Y|do(X))) 表示干预X(强制服药)时Y的分布,通过对Z分层求和消除混杂。:研究某新型药物(X)对心脏病患者康复(Y)的因果效应,需排除年龄(Z)的混杂影响。
2025-06-08 01:51:17
906
原创 强化学习中的数据Shuffling(洗牌)
算法类型 是否需要洗牌 关键原因DQN、SAC ✅ 需要 依赖经验回放,需打破样本间时序相关性PPO、A2C ❌ 不需要 优势函数计算依赖时序,在线策略无需历史数据基于 LSTM 的序列模型 ❌ 不需要 网络结构显式建模时序依赖行为克隆(专家轨迹) ❌ 不需要 需保留专家演示的动作顺序。
2025-06-07 17:27:44
848
原创 强化学习概念辨析(On-line,Off-line)
在线学习是一种机器学习范式,其核心特点是智能体(或模型)通过与环境的实时交互逐步获取数据,并在每一步数据获取后立即更新模型参数。整个过程呈现 “数据采集→模型训练→决策优化” 的动态循环,类似于人类通过持续实践不断积累经验的过程。离线学习是一种传统的机器学习范式,其核心特点是智能体(或模型)在训练阶段完全基于 预先收集的静态数据集 进行学习,训练完成后直接用于部署和决策。整个过程分为数据收集→批量训练→固定部署三个独立阶段,类似于人类通过 “复习已有知识” 掌握技能的过程。
2025-06-07 01:36:36
1188
原创 强化学习概念辨析(On-policy,Off-policy)
如有不全面或者不对的地方,还请大家评论区留言,进行增删。首先给出二者定义:On-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为同一策略。Off-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为不同策略。当然,只看上述定义还是很难理解二者之间的具体区别,接下来将对两种经典的强化学习算法(Sarsa,Q-learning)进行分析,并通过二者之间的区别详细阐述On-policy和Off-policy之间的区别。
2025-06-06 18:21:47
909
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人