DQN的多种改进（1）

最新推荐文章于 2025-04-24 14:22:15 发布

B417科研笔记

最新推荐文章于 2025-04-24 14:22:15 发布

阅读量3.6w

点赞数 3

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_39274659/article/details/88358966

版权

深度学习专栏收录该内容

21 篇文章

订阅专栏

1.N-step DQN

N-step DQN的核心是将bellman方程展开，即 $Q(s_t,a_t) = r_t + \gamma r_{t+1} + \gamma^2 max_{a'}Q(s_{t+2},a')$
显然，这个式子可以进一步的拓展。但要注意的是，这里假设了 $a_t$ 是趋近于最优动作，因此才能省略max

书中提到，该方法的优点在于可以加速Q网络的收敛。原因在于，由于一开始的随机数据，使得真正准确的Q值其实只存在于最后一个状态。因为只有最后一个状态的Q值等于reward是准确的，其余的都掺杂有不准确的target_Q网络的预测值。而准确的Q值会在第一次迭代后影响到倒数第二层，继而在下一次迭代后影响到倒数第三层。。而如果使用N-step DQN，可以使得准确的Q值在第一次迭代时就影响到倒数前N层，因此起到了加速收敛的作用。但是N值不能取得太大，因为每一步的a并不是最优动作，N值太大时会使得Q的计算严重出错，因为省略了max。且由于DQN off-policy的性质，a的值很可能来源于old policy，从而影响性能。