1、DDPG算法
深度确定性策略梯度算法( deep deterministic policy gradient,DDPG),DPG是一种确定性的策略梯度算法。与Actor-Critic算法类似,差别在于其中的Actor输出的不再是动作的概率分布,而是一个确定的动作。而DDPG就是加上了一些策略,比如加上噪声,而引入噪声最简单的方式就是在Actor输出的值上加上一个随机数。
2、TD3算法
在DDPG的基础上引进了3个策略:
- 双Q网络,同时维护两个Q网络,利用loss较小的来更新梯度;
- 延迟更新,延迟更新更像是一种实验技巧,即在训练中 Actor 的更新频率要低于 Critic 的更新频率。
- 噪声正则,在Critic上增加噪声,提高鲁棒性。
3、PPO算法
本质上 PPO 算法就是在 Actor-Critic 算法的基础上增加了重要性采样的约束而已,从而确保每次的策略梯度估计都不会过分偏离当前的策略,也就是减少了策略梯度估计的方差,从而提高算法的稳定性和收敛性。采用了一种更优的蒙特卡洛采样方法来进行策略梯度更新。
4、SAC算法
最大熵强化学习认为,即使我们目前有了成熟的随机性策略,即 Actor-Critic 一类的算法,但是还是没有达到最优的随机。因此,它引入了一个信息熵的概念,在最大化累积奖励的同时最大化策略的熵,使得策略更加鲁棒,从而达到最优的随机性策略。即引进了策略的信息熵来进行约束奖励函数。