RL论文阅读【六】Rainbow: Combining Improvements in Deep Reinforcement Learning

Rainbow论文集成了DQN的多种改进,包括Multi-step learning、Distributional RL、Noisy net和算法融合。Multi-step learning通过多步目标改进Q值估计;Distributional RL将Q值输出为分布,提高准确性;Noisy net引入权重噪声以促进探索。通过这些结合,Rainbow在测试中表现出优于其他网络的效果。
摘要由CSDN通过智能技术生成

1 motivation

这篇论文可以理解为把 DQN 的很多改进都用上了,之前 Dueling DQN 其实已经把 Double DQN 和 Prioritized replay 已经用上了,除此之外,Q-learning 还有一个改进是 Multi-step,后来又有人提出了 Distributional RL 和 Noisy net。然后这篇论文的思想就是把这些改进全结合到一起,做一个全能的网络。下面就分别介绍每个具体的改进和如何结合。

2 优化算法

其中 DDQN,Dueling DQN 和 Prioritized replay 之前都介绍过就不再分别介绍了。

DDQN:https://blog.csdn.net/taoyafan/article/details/90951058

Dueling DQN:https://blog.csdn.net/taoyafan/article/details/90745419

Prioritized replay:https://blog.csdn.net/taoyafan/article/details/91909380

下别分别介绍其他优化:

2.1 Multi-step learning

这个优化是 Q-learning 里面就有的东西,在之前我们计算 loss 时,是用的 TD(0) 的方法,i.e. reward 加下一个状态的 Q 作为 target 和 当前

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值