1 motivation
这篇论文可以理解为把 DQN 的很多改进都用上了,之前 Dueling DQN 其实已经把 Double DQN 和 Prioritized replay 已经用上了,除此之外,Q-learning 还有一个改进是 Multi-step,后来又有人提出了 Distributional RL 和 Noisy net。然后这篇论文的思想就是把这些改进全结合到一起,做一个全能的网络。下面就分别介绍每个具体的改进和如何结合。
2 优化算法
其中 DDQN,Dueling DQN 和 Prioritized replay 之前都介绍过就不再分别介绍了。
DDQN:https://blog.csdn.net/taoyafan/article/details/90951058
Dueling DQN:https://blog.csdn.net/taoyafan/article/details/90745419
Prioritized replay:https://blog.csdn.net/taoyafan/article/details/91909380
下别分别介绍其他优化:
2.1 Multi-step learning
这个优化是 Q-learning 里面就有的东西,在之前我们计算 loss 时,是用的 TD(0) 的方法,i.e. reward 加下一个状态的 Q 作为 target 和 当前