强化学习
文章平均质量分 71
红烧code
菜鸡一枚儿
展开
-
静态优化问题与动态优化问题
静态优化问题:一次性决策,不考虑时间变化,目标函数和约束是固定的。动态优化问题:决策随时间演化,未来的决策影响当前决策,目标函数和约束可能随时间变化。转载 2024-08-14 21:30:29 · 204 阅读 · 0 评论 -
Windows下安装Mujoco1.50
最近看了很多在Windows上安装Mujoco1.50的教程,大多数过于繁杂,下面根据官方文档,写一个相对简化的安装方法,主要是其实很简单,总共就三句话,并没有说1.50版本要设置环境变量啥的,不知道其他博主在哪看的。原创 2024-07-17 01:17:48 · 995 阅读 · 0 评论 -
两个高斯分布的KL散度&绘制动画
P、Q为随机变量X的两个概率分布;p、q为对应的概率密度函数。KL散度用于衡量两个变量分布之间的差异性。原创 2024-03-13 14:13:31 · 945 阅读 · 0 评论 -
SAC算法
SAC全称Soft Actor-Critic算法,为优化目标引入了熵约束项,增大了动作的探索性,避免陷入局部最优解,原创 2023-09-07 22:12:07 · 423 阅读 · 0 评论 -
TD3算法
TD3全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进。原创 2023-09-06 18:54:50 · 476 阅读 · 0 评论 -
DDPG算法
确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target。原创 2023-09-06 13:45:17 · 256 阅读 · 0 评论 -
深度强化学习算法的参数更新时机
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。原创 2023-09-05 22:41:52 · 322 阅读 · 0 评论 -
PPO算法
全称Proximal Policy Optimization,是TRPO(Trust Region Policy Optimization)算法的继承与简化,大大降低了实现难度。原创 2023-09-05 21:29:32 · 167 阅读 · 0 评论 -
重要性采样
重要性采样个人笔记原创 2023-09-05 11:43:45 · 502 阅读 · 0 评论 -
A2C算法
A2C算法原创 2023-09-04 15:21:39 · 214 阅读 · 0 评论 -
VPG算法
VPG算法伪代码,对比REINFORCE算法原创 2023-09-03 19:06:02 · 357 阅读 · 0 评论 -
nonlocal关键字声明
nonlocal关键字声明与闭包的应用原创 2023-08-27 13:13:08 · 211 阅读 · 0 评论 -
策略梯度方法
西湖大学赵世钰老师强化学习数学原理简略笔记---策略梯度部分原创 2023-08-18 22:08:37 · 257 阅读 · 0 评论