应用场景 在一些环境中,能知道采取了一个动作后会造成什么结果。如下棋,我们不知道如何下(采取的动作),但是知道每种下法将形成的局面(afterstate)。后位状态价值函数就是利用这些先验知识更加高效地学习方法。 理解 不同的 (s, a) 二元组产生相同的局面(afterstate),因此将它们的价值也看做相同的。(不问来路) 贝尔曼方程 动作价值函数的贝尔曼方程: