基于策略梯度的算法

最新推荐文章于 2024-07-24 22:13:06 发布

CharlesChenMS

最新推荐文章于 2024-07-24 22:13:06 发布

阅读量272

点赞数 6

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cms90822/article/details/140191805

版权

1、DDPG算法

深度确定性策略梯度算法（ deep deterministic policy gradient，DDPG），DPG是一种确定性的策略梯度算法。与Actor-Critic算法类似，差别在于其中的Actor输出的不再是动作的概率分布，而是一个确定的动作。而DDPG就是加上了一些策略，比如加上噪声，而引入噪声最简单的方式就是在Actor输出的值上加上一个随机数。

2、TD3算法

在DDPG的基础上引进了3个策略：

双Q网络，同时维护两个Q网络，利用loss较小的来更新梯度；
延迟更新，延迟更新更像是一种实验技巧，即在训练中 Actor 的更新频率要低于 Critic 的更新频率。
噪声正则，在Critic上增加噪声，提高鲁棒性。

3、PPO算法

本质上 PPO 算法就是在 Actor-Critic 算法的基础上增加了重要性采样的约束而已，从而确保每次的策略梯度估计都不会过分偏离当前的策略，也就是减少了策略梯度估计的方差，从而提高算法的稳定性和收敛性。采用了一种更优的蒙特卡洛采样方法来进行策略梯度更新。

4、SAC算法

最大熵强化学习认为，即使我们目前有了成熟的随机性策略，即 Actor-Critic 一类的算法，但是还是没有达到最优的随机。因此，它引入了一个信息熵的概念，在最大化累积奖励的同时最大化策略的熵，使得策略更加鲁棒，从而达到最优的随机性策略。即引进了策略的信息熵来进行约束奖励函数。

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于策略梯度的算法

最大熵强化学习认为，即使我们目前有了成熟的随机性策略，即 Actor-Critic 一类的算法，但是还是没有达到最优的随机。因此，它引入了一个信息熵的概念，在最大化累积奖励的同时最大化策略的熵，使得策略更加鲁棒，从而达到最优的随机性策略。本质上 PPO 算法就是在 Actor-Critic 算法的基础上增加了重要性采样的约束而已，从而确保每次的策略梯度估计都不会过分偏离当前的策略，也就是减少了策略梯度估计的方差，从而提高算法的稳定性和收敛性。采用了一种更优的蒙特卡洛采样方法来进行策略梯度更新。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。