强化学习-赵世钰（二）-PPT：贝尔曼公式/Bellman Equation【用于计算State Value（用来评价一个策略的优劣）】、Action Value【用来评价action优劣】

u013250861

已于 2023-12-04 00:25:13 修改

阅读量186

点赞数

文章标签：强化学习

于 2023-11-18 14:27:45 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/134477974

版权

一、State Value

State values：the mean of all possible returns that can be obtained starting from a state.

贝尔曼公式/Bellman Equation：

注意事项：

贝尔曼公式不是一个，而是一系列的公式。状态空间S中的每一个s都有一个这种对应的公式。如果S中有n个s，则有n个这种公式，通过这n个公式联合求解就可以解出每一个s的state value，即v_π(s)；
贝尔曼公式描述了不同状态的state value之间的关系，即：v_π(s)与v_π(s')之间的关系；

policy evaluation：给定一个policy，列出该policy的贝尔曼公式，根据贝尔曼公式求解得出state values。

当k趋向于无穷大时，v_k收敛到v_π。v_π就是真实的state value。证明如下：

靠近target的state的state value都比较大。

离target越远的state的state value越小。

Action Value：用于比较在某一个state所采取的各个action的优劣。

关注