Bellman Equation主要包含一个核心概念和一个基本工具:state value状态值 和 the Bellman Equation贝尔曼公式,贝尔曼公式揭示了不同状态之间的联系。
return为整个轨迹所获得的reward,求解贝尔曼公式就是找到一个最优策略来获得return最多。
那么state value和return的区别是什么呢?return是针对一个策略求最优解,而state value是可以针对多个策略求最优解,所以在贝尔曼公式中,return是state value求解策略的特例。
引入一个概念:discoubted return:
,其中
state value即为的均值,R即为reward。
,
为state value。
以上公式经过改写变为贝尔曼公式:
其中前面为immediate reward 即立即奖励,后面为延迟的奖励,每一个状态对应每一个贝尔曼公式,其中写成Matrux-vactor form(矩阵向量形式)为:
虽然可以解出得到state value,但对于比较庞大的情况下,一般使用iterative soluation迭代解决:
,当
时,通过不断迭代求解。
得到state value后,也可以求解action value,不同的是,action value是在action固定的情况下求得的:
action value为state value的一个行动,就像走迷宫一样,如果有一百条路,那么state value就是每条路的policy乘以概论,而action value就是其中的一条路,因此,action value为state value的后半整体:
贝尔曼公式是策略评估的一个工具,policy evaluation就是给出policy,列出贝尔曼公式,求解贝尔曼公式,最后得到state value进行评估,value就是价值,价值越大,策略越好。