强化学习
文章平均质量分 70
红烧code
菜鸡一枚儿
展开
-
两个高斯分布的KL散度&绘制动画
P、Q为随机变量X的两个概率分布;p、q为对应的概率密度函数。KL散度用于衡量两个变量分布之间的差异性。原创 2024-03-13 14:13:31 · 832 阅读 · 0 评论 -
SAC算法
SAC全称Soft Actor-Critic算法,为优化目标引入了熵约束项,增大了动作的探索性,避免陷入局部最优解,原创 2023-09-07 22:12:07 · 298 阅读 · 0 评论 -
TD3算法
TD3全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进。原创 2023-09-06 18:54:50 · 378 阅读 · 0 评论 -
DDPG算法
确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target。原创 2023-09-06 13:45:17 · 181 阅读 · 0 评论 -
深度强化学习算法的参数更新时机
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。原创 2023-09-05 22:41:52 · 222 阅读 · 0 评论 -
PPO算法
全称Proximal Policy Optimization,是TRPO(Trust Region Policy Optimization)算法的继承与简化,大大降低了实现难度。原创 2023-09-05 21:29:32 · 115 阅读 · 0 评论 -
重要性采样
重要性采样个人笔记原创 2023-09-05 11:43:45 · 456 阅读 · 0 评论 -
A2C算法
A2C算法原创 2023-09-04 15:21:39 · 157 阅读 · 0 评论 -
VPG算法
VPG算法伪代码,对比REINFORCE算法原创 2023-09-03 19:06:02 · 299 阅读 · 0 评论 -
nonlocal关键字声明
nonlocal关键字声明与闭包的应用原创 2023-08-27 13:13:08 · 157 阅读 · 0 评论 -
策略梯度方法
西湖大学赵世钰老师强化学习数学原理简略笔记---策略梯度部分原创 2023-08-18 22:08:37 · 233 阅读 · 0 评论