基于策略梯度的算法

1、DDPG算法

深度确定性策略梯度算法( deep deterministic policy gradient,DDPG),DPG是一种确定性的策略梯度算法。与Actor-Critic算法类似,差别在于其中的Actor输出的不再是动作的概率分布,而是一个确定的动作。而DDPG就是加上了一些策略,比如加上噪声,而引入噪声最简单的方式就是在Actor输出的值上加上一个随机数。

2、TD3算法

在DDPG的基础上引进了3个策略:

  1. 双Q网络,同时维护两个Q网络,利用loss较小的来更新梯度;
  2. 延迟更新,延迟更新更像是一种实验技巧,即在训练中 Actor 的更新频率要低于 Critic 的更新频率。
  3. 噪声正则,在Critic上增加噪声,提高鲁棒性。

3、PPO算法

本质上 PPO 算法就是在 Actor-Critic 算法的基础上增加了重要性采样的约束而已,从而确保每次的策略梯度估计都不会过分偏离当前的策略,也就是减少了策略梯度估计的方差,从而提高算法的稳定性和收敛性。采用了一种更优的蒙特卡洛采样方法来进行策略梯度更新。

4、SAC算法

最大熵强化学习认为,即使我们目前有了成熟的随机性策略,即 Actor-Critic 一类的算法,但是还是没有达到最优的随机。因此,它引入了一个信息熵的概念,在最大化累积奖励的同时最大化策略的熵,使得策略更加鲁棒,从而达到最优的随机性策略。即引进了策略的信息熵来进行约束奖励函数。

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值