贝尔曼方程在强化学习中无处不在,对于理解强化学习算法的工作原理是非常必要的。贝尔曼方程让我们可以开始解决MDPs问题。
贝尔曼期望方程
贝尔曼最优方程
将贝尔曼期望方程与贝尔曼最优方程进行对比,可以发现,贝尔曼期望方程是对于某一个给定的策略,求其状态值函数和动作值函数,也即对某一策略进行估计;而贝尔曼最优方程则是要去寻找最优策略,也即通过对动作值函数进行greedy得到。
观察贝尔曼最优方程可以发现,这并不是线性方程,其中引入了max函数,这是一个非线性函数,因此通常来说我们并不能像贝尔曼期望方程一样直接求解得到一个闭式解,只能通过迭代进行求解,求解的方法有:1) Policy Iteration 2)Value Iteration 3)Q-learning 4)Sarsa
贝尔曼方程的重要性在于,它能让我们将一个状态的值表达成其它状态的值。这意味着,如果我们知道 St+1 S t + 1 的值,我们可以很容易计算出 St S t 的值。这为计算每个状态值的迭代方法打开了大门,因为如果我们知道下一个状态的值,我们就可以知道当前状态的值。在这里,最重要的是要记住方程式的编号。最后,随着Bellman方程(贝尔曼方程)的出现,我们可以开始研究如何计算最优策略,并编写我们的第一个强化学习智能体程序。