自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 无折扣形式策略梯度:深度解析与关键形式

用奖励/价值引导策略更新,同时尽可能降方差、提效率。而优势函数,正是这一路进化的“集大成者”——平衡了方差、解释性和实用性,成为深度强化学习(如 PPO、A2C 等算法)的基石。如果你在做强化学习项目,不妨从优势函数入手,搭配 Actor-Critic 框架,感受策略梯度的强大优化能力。当然,也别忽略其他形式的价值——比如 TD 误差适合快速迭代场景,基础形式帮你理解梯度本质。掌握这些,策略梯度的优化逻辑就不再晦涩,接下来就是放手实践,让智能体在环境中“一路狂飙”拿高分啦~

2025-06-10 19:04:51 550

原创 PPO实现gym任务模板(以cartpole为例)

【代码】PPO实现gym任务模板(以cartpole为例)

2025-06-10 12:26:01 240

原创 因果推断中 P(Y|X) 和 P( Y|do(x))的区别

以及是否排除了混淆变量的影响。的观测分布,而P(Y|do(X)) 对应。在因果图中,( P(Y|X) ) 对应。它们的本质区别在于是否涉及。是两个核心概念,用于区分。

2025-06-10 11:46:12 505

原创 因果推断后门准则具体例子

若直接拟合模型 (Y = \beta_0 + \beta_1 X + \epsilon),系数(\beta_1) 可能仅反映相关性,而非因果性。假设原始数据中,服药组康复率为40%,未服药组为30%,表面上药物有效。通过后门调整,分层分析明确分离了年龄的影响,确保组内比较的公平性(即同年龄组内服药与未服药患者的差异仅由药物引起)。其中,(P(Y|do(X))) 表示干预X(强制服药)时Y的分布,通过对Z分层求和消除混杂。:研究某新型药物(X)对心脏病患者康复(Y)的因果效应,需排除年龄(Z)的混杂影响。

2025-06-08 01:51:17 906

原创 window10系统下载Carla0.9.14版本

今天花了一些时间在windows系统上安装自动驾驶模拟环境Carla,简单记录一下。

2025-06-08 00:06:47 754

原创 强化学习中的数据Shuffling(洗牌)

算法类型 是否需要洗牌 关键原因DQN、SAC ✅ 需要 依赖经验回放,需打破样本间时序相关性PPO、A2C ❌ 不需要 优势函数计算依赖时序,在线策略无需历史数据基于 LSTM 的序列模型 ❌ 不需要 网络结构显式建模时序依赖行为克隆(专家轨迹) ❌ 不需要 需保留专家演示的动作顺序。

2025-06-07 17:27:44 848

原创 强化学习概念辨析(On-line,Off-line)

在线学习是一种机器学习范式,其核心特点是智能体(或模型)通过与环境的实时交互逐步获取数据,并在每一步数据获取后立即更新模型参数。整个过程呈现 “数据采集→模型训练→决策优化” 的动态循环,类似于人类通过持续实践不断积累经验的过程。离线学习是一种传统的机器学习范式,其核心特点是智能体(或模型)在训练阶段完全基于 预先收集的静态数据集 进行学习,训练完成后直接用于部署和决策。整个过程分为数据收集→批量训练→固定部署三个独立阶段,类似于人类通过 “复习已有知识” 掌握技能的过程。

2025-06-07 01:36:36 1188

原创 强化学习概念辨析(On-policy,Off-policy)

如有不全面或者不对的地方,还请大家评论区留言,进行增删。首先给出二者定义:On-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为同一策略。Off-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为不同策略。当然,只看上述定义还是很难理解二者之间的具体区别,接下来将对两种经典的强化学习算法(Sarsa,Q-learning)进行分析,并通过二者之间的区别详细阐述On-policy和Off-policy之间的区别。

2025-06-06 18:21:47 909

原创 强化学习路径梳理(赵世钰老师课程笔记)

2025-06-06 13:13:45 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除