1 motivation
这篇论文可以理解为把 DQN 的很多改进都用上了,之前 Dueling DQN 其实已经把 Double DQN 和 Prioritized replay 已经用上了,除此之外,Q-learning 还有一个改进是 Multi-step,后来又有人提出了 Distributional RL 和 Noisy net。然后这篇论文的思想就是把这些改进全结合到一起,做一个全能的网络。下面就分别介绍每个具体的改进和如何结合。
2 优化算法
其中 DDQN,Dueling DQN 和 Prioritized replay 之前都介绍过就不再分别介绍了。
DDQN:https://blog.csdn.net/taoyafan/article/details/90951058
Dueling DQN:https://blog.csdn.net/taoyafan/article/details/90745419
Prioritized replay:https://blog.csdn.net/taoyafan/article/details/91909380
下别分别介绍其他优化:
2.1 Multi-step learning
这个优化是 Q-learning 里面就有的东西,在之前我们计算 loss 时,是用的 TD(0) 的方法,i.e. reward 加下一个状态的 Q 作为 target 和 当前

Rainbow论文集成了DQN的多种改进,包括Multi-step learning、Distributional RL、Noisy net和算法融合。Multi-step learning通过多步目标改进Q值估计;Distributional RL将Q值输出为分布,提高准确性;Noisy net引入权重噪声以促进探索。通过这些结合,Rainbow在测试中表现出优于其他网络的效果。
最低0.47元/天 解锁文章

847

被折叠的 条评论
为什么被折叠?



