Q-Learning中的Q值为何会被过估计？（即Double-DQN解决了什么问题）

最新推荐文章于 2025-03-05 07:47:20 发布

刘长风RL

最新推荐文章于 2025-03-05 07:47:20 发布

阅读量1.7k

点赞数 4

文章标签：强化学习

本文链接：https://blog.csdn.net/Passenger54621465/article/details/118585020

版权

图（1）
由图（1），在马尔科夫决策过程中：

公式（1）

公式（2）
由公式（1）和公式（2），可以简写成v(s) = E[q(s, a)]，q(s, a) = E[r + v(s’)]，合并得到v(s) = E[r + v(s’)]和q(s, a) = E[r + E[q(s’, a’)]]， 即q值的更新是根据下个状态q值的均值来更新的，并不是通过下个状态最大的q值来更新的。

再来看Q-Learning更新Q值的公式：