强化学习（2）：Bellman方程

最新推荐文章于 2024-08-24 22:35:06 发布

weixin_mm975247003

最新推荐文章于 2024-08-24 22:35:06 发布

阅读量7.3k

点赞数 9

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/fly975247003/article/details/93045344

版权

强化学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

强化学习原理入门-Day2：Bellman方程

1、状态值函数的计算
2、状态行为值函数
3、最优价值函数
- 3.1、最优状态值函数
- 3.2、最优状态行为值函数

1、状态值函数的计算

1）某个状态的值函数等于该状态下所有状态行为值函数 $q_\pi(s,a)$ 的加权和，即： $v_{\pi}(s)=E_\pi[\sum_{a\in A}\pi(a|s)q_\pi(s|a)]$
2）这里的权重就是该状态下采取该行为的概率，即策略 $\pi(a|s)$ 。

2、状态行为值函数

状态行为值函数等于该状态、该行为执行后的即时奖励（的期望）。加上它所导致的所有下一步状态的折减后状态值函数 $v_\pi(s)$ 的加权和。（权重是改状态下，该行为所导致的下一步状态的概率，即状态转移概率矩阵.）

在这里插入图片描述
其中： $q_\pi(s,a)=R_s^a+\gamma\sum_{s^{'}\in S}P^a_{SS^{'} }v_\pi(s^{'})$
$R_s^a=E[R_{t+1}|S_t=s,A_t=a]$

Bellman方程其实是 $v_\pi(s)$ 和 $q_{\pi}(s,a)$ 自身以及相互之间的递推关系。
状态值函数的递归关系：
在这里插入图片描述
$v_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma \sum_ {s^{'}\in S}P_{ss^{'}}^av_\pi(s^{'}))$
状态行为值函数之间的递归关系：

$q_\pi(s,a)=R_s^a+\gamma \sum_{s^{'}\in S}P_{ss^{'}}\sum_{a^{'}\in A}\pi(a^{'}|s^{'}q_{\pi}(s^{'},a^{'}))$
在这里插入图片描述
根据公式计算 $s_4$ 的状态值函数：
$v(s_4)=0.5\times(1+0.2\times(-1.3)+0.3\times2.7+0.4\times7.4)+0.5\times10$