强化学习记录-DQN、PPO、DDPG、SAC对比

Actor-Critic 和 PPO都是在线策略算法,这意味着它们的样本效率比较低。

DQN 算法直接估计最优函数 Q,可以做到离线策略学习,但是它只能处理动作空间有限的环境,这是因为它需要从所有动作中挑选一个值最大的动作。如果动作个数是无限的,虽然可以将动作空间离散化,但这比较粗糙,无法精细控制。

深度确定性策略梯度(DDPG)是用来处理动作空间无限的环境并且使用离线策略的算法。构造一个确定性策略,用梯度上升的方法来最大化Q值。

 PPO 学习随机性策略,而DDPG 则学习一个确定性策略。

DDPG 是离线策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。一个更加稳定的离线策略算法 Soft Actor-Critic(SAC)被提出,属于最大熵强化学习的范畴。SAC学习一个随机性策略。

最大熵强化学习(maximum entropy RL)的思想就是除了要最大化累积奖励,还要使得策略更加随机。其中,\alpha是一个正则化的系数,用来控制熵的重要程度。熵正则化增加了强化学习算法的探索程度,\alpha越大,探索性就越强,有助于加速后续的策略学习,并减少策略陷入较差的局部最优的可能性。

SAC 算法原本是针对连续动作交互的环境提出的,但是SAC 也能处理与离散动作交互的环境,通过修改策略网络和价值网络的网络结构,得出SAC 可以在离散动作环境下平衡探索与利用的优秀性质。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DQNDDPG、TRPO、A3C、PPOSAC、TD3 是深度强化学习算法中常见的几种。它们在算法原理和训练方式上有一些区别。 1. DQN(Deep Q-Network)是一种基于Q-learning的算法,通过使用深度神经网络来近似Q函数。它适用于离散动作空间的问题。 2. DDPG(Deep Deterministic Policy Gradient)是一种适用于连续动作空间的算法。它结合了DQN和确定性策略梯度方法,使用了一个Actor网络来学习策略函数,同时使用一个Critic网络来评估策略的价值。 3. TRPO(Trust Region Policy Optimization)是一种基于策略梯度的算法。它通过限制策略更新的幅度,来确保每次更新后的策略在一定程度上比之前的策略更好。 4. A3C(Asynchronous Advantage Actor-Critic)是一种并行化的强化学习算法。它通过多个并行的智能体来加速训练,并使用Actor-Critic框架进行更新。 5. PPO(Proximal Policy Optimization)是一种基于策略梯度的算法,它通过限制策略更新的幅度和使用剪切优化目标函数的方式来提高稳定性和效率。 6. SAC(Soft Actor-Critic)是一种基于最大熵强化学习的算法。它在策略优化过程中加入了最大熵正则化项,以提高探索性和学习效果。 7. TD3(Twin Delayed Deep Deterministic Policy Gradient)是DDPG的改进版本,它使用了双Critic网络来减轻Q函数估计的偏差,并采用延迟更新策略来增加训练的稳定性。 总体来说,这些算法在目标函数、更新策略、网络结构和训练方式等方面有所区别,针对不同的问题和环境选择适合的算法是很重要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值