2021-06-25 RL 算法总结

本文介绍了从离散到连续动作空间的强化学习算法,包括DQN系列(如DQN、DDQN、Dueling DQN、D3QN和Noisy DQN)以及Distributional RL,探讨了如何处理动作空间的变化。进一步讲解了DDPG、TD3、D4PG等算法,以及随机策略如A3C、PPO、TRPO和SAC。文章还讨论了混合动作空间的处理方法,并给出了算法比较和调参建议。
摘要由CSDN通过智能技术生成

常用算法介绍

离散的动作空间 discrete action space的算法

动作是离散的,一般是判断简单的操作,怎么操作能使得分更高。

常用网络

估计Q值期望
  • DQN(Deep Q Network)Q网络代替Q表,使强化学习可以预测连续状态空间。
  • DDQN(Double DQN)DQN最优化操作会传播高估误差,所以DDQN同时训练两个Q network并选择较小的Q值用于计算TD-error时间差分误差,降低高估误差。(TD3也用了多个网络来避免高估计误差)
  • Dueling DQN,Dueling DQN 使用了优势函数 advantage function(A3C也用了):它只估计state的Q值,不考虑动作,好的策略能将state 导向一个更有优势的局面。在某些state下,Dueling DQN 能在只收集到一个离散动作的数据后,直接得到准确的估值。优点:当某些环境中,存在大量不受action影响的state,此时Dueling DQN能学得比DQN更快
  • D3QN(Dueling Double DQN)。Dueling DQN 与Double DQN 相互兼容,一起用效果很好。简单,泛用,没有使用禁忌。任何一个刚入门的人都能独立地在前两种算法的基础上改出D3QN。在论文中使用了D3QN应该引用DuelingDQN 与 DoubleDQN的文章
  • Noisy DQN,探索能力稍强。Noisy DQN 把噪声添加到网络的输出层之前值。原本Q值较大的动作在添加噪声后Q值变大的概率也比较大。这种探索比epslion-greedy随机选一个动作去执行更好,至少这种针对性的探索既保证了探索动作多样,也提高了探索效率。
估计Q值分布
  • Distributional RL 值分布RL(C51,Distributional Perspective RL): C表示Categorical,51表示他们将值分布划分51个grid,拟合值函数的分布。在DQN中,Q Network 拟合了Q值的期望,期望可以用一个数值去描述,比较简单。在这个值分布DQN中,Q Network 拟合了Q值的分布,Q值分布的描述就要麻烦一些了,但是训练效果更好。
  • QR-DQN(分位数回归 Quantile Regression),使用N个分位数去描述Q值分布(这种方法比C51划分51个grid的方法更妙,我推荐看 QR-DQN - Frank Tian。
  • Rainbow DQN,上面提及的DQN变体很多是相互兼容的,因此 David Sliver 他们整合了这些变体,称为Rainbow。
  • Ape-X DQN(Distributed Prioritized Experience Replay),也是 David Sliver 他们做的。使用了Distributed training,用多个进程创建了多个actor去与环境交互,然后使用收集到的数据去训练同一个learner,用来加快训练速度。Prioritized Experience Replay(优先经验回放 PER 下面会讲)。Ape-X通过充分利用CPU资源,合理利用GPU,从而加快了训练速度。注意,这不等同于减少训练总步数。NVIDIA 有一个叫 Apex的库,用于加速计算。
  • Ape-X DPG(Distributed Prioritized Ex
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值