强化学习Bellman Equation-Today3

最新推荐文章于 2024-07-20 09:21:06 发布

赵荏苒

最新推荐文章于 2024-07-20 09:21:06 发布

阅读量417

点赞数 5

分类专栏：强化学习文章标签：算法 python 人工智能

本文链接：https://blog.csdn.net/m0_52094641/article/details/140134866

版权

10 篇文章 0 订阅

订阅专栏

Bellman Equation主要包含一个核心概念和一个基本工具：state value状态值和 the Bellman Equation贝尔曼公式，贝尔曼公式揭示了不同状态之间的联系。

return为整个轨迹所获得的reward，求解贝尔曼公式就是找到一个最优策略来获得return最多。

那么state value和return的区别是什么呢？return是针对一个策略求最优解，而state value是可以针对多个策略求最优解，所以在贝尔曼公式中，return是state value求解策略的特例。

引入一个概念：discoubted return:

$G_{t}=R_{t+1}+\gamma R_{t+2}+......=R_{t+1}+G_{t+1}$ ,其中 $\gamma \in[0,1)$

state value即为 $G_{t}$ 的均值，R即为reward。

$v_{\pi }\left ( s \right )=E[G_{t}|S_{t}=s]$ ， $v_{\pi }\left ( s \right )$ 为state value。

以上公式经过改写变为贝尔曼公式：

$v_{\pi }\left ( s \right )=\sum_{a}^{}\pi (a|s)(\sum_{r}^{}p(r|s,a)r+\gamma \sum_{s^{,}}^{}p(s^{,}|s,a)v_{\pi }(s^{,})),\forall s\in S$

其中前面为immediate reward 即立即奖励，后面为延迟的奖励，每一个状态对应每一个贝尔曼公式，其中写成Matrux-vactor form(矩阵向量形式)为：

$v_{\pi }=r\pi +\gamma p_{\pi }v_{\pi }$

虽然可以解出 $v_{\pi }$ 得到state value，但对于比较庞大的情况下，一般使用iterative soluation迭代解决：

$v_{k+1}=r_{\pi }+ \gamma p_{\pi }v_{k}$ ，当 $k\rightarrow\propto$ 时，通过不断迭代求解。

得到state value后，也可以求解action value，不同的是，action value是在action固定的情况下求得的：

$q_{\pi }\left ( s,a \right )=E[G_{t}|S_{t}=s,A_{t}=a]$

action value为state value的一个行动，就像走迷宫一样，如果有一百条路，那么state value就是每条路的policy乘以概论，而action value就是其中的一条路，因此，action value为state value的后半整体：

$q_{\pi }\left ( s,a \right )=\sum_{a}^{}\pi (a|s)(\sum_{r}^{}p(r|s,a)r+\gamma \sum_{s^{,}}^{}p(s^{,}|s,a)v_{\pi }(s^{,})),\forall s\in S$

贝尔曼公式是策略评估的一个工具，policy evaluation就是给出policy，列出贝尔曼公式，求解贝尔曼公式，最后得到state value进行评估，value就是价值，价值越大，策略越好。

关注