强化学习记录-DQN、PPO、DDPG、SAC对比

Actor-Critic 和 PPO都是在线策略算法,这意味着它们的样本效率比较低。

DQN 算法直接估计最优函数 Q,可以做到离线策略学习,但是它只能处理动作空间有限的环境,这是因为它需要从所有动作中挑选一个值最大的动作。如果动作个数是无限的,虽然可以将动作空间离散化,但这比较粗糙,无法精细控制。

深度确定性策略梯度(DDPG)是用来处理动作空间无限的环境并且使用离线策略的算法。构造一个确定性策略,用梯度上升的方法来最大化Q值。

 PPO 学习随机性策略,而DDPG 则学习一个确定性策略。

DDPG 是离线策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。一个更加稳定的离线策略算法 Soft Actor-Critic(SAC)被提出,属于最大熵强化学习的范畴。SAC学习一个随机性策略。

最大熵强化学习(maximum entropy RL)的思想就是除了要最大化累积奖励,还要使得策略更加随机。其中,\alpha是一个正则化的系数,用来控制熵的重要程度。熵正则化增加了强化学习算法的探索程度,\alpha越大,探索性就越强,有助于加速后续的策略学习,并减少策略陷入较差的局部最优的可能性。

SAC 算法原本是针对连续动作交互的环境提出的,但是SAC 也能处理与离散动作交互的环境,通过修改策略网络和价值网络的网络结构,得出SAC 可以在离散动作环境下平衡探索与利用的优秀性质。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值