图(1) 由图(1),在马尔科夫决策过程中: 公式(1) 公式(2) 由公式(1)和公式(2),可以简写成v(s) = E[q(s, a)],q(s, a) = E[r + v(s’)],合并得到v(s) = E[r + v(s’)]和q(s, a) = E[r + E[q(s’, a’)]], 即q值的更新是根据下个状态q值的均值来更新的,并不是通过下个状态最大的q值来更新的。 再来看Q-Learning更新Q值的公式: