强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程

越菜越摆

已于 2024-06-24 19:50:11 修改

阅读量1.1k

点赞数 25

文章标签：深度学习概率论人工智能

于 2024-06-22 17:52:36 首次发布

本文链接：https://blog.csdn.net/m0_57543713/article/details/139885807

版权

强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程

强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程

强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程

1. 状态价值

1.1状态价值函数（State Value Function）

评估智能体从某特定状态开始，遵循某一策略进行决策时，所能获得的预期累计奖励的大小。具体来说，状态价值函数定义为智能体处于状态 $s$ 时，按照某一策略 $\pi$ 进行后续决策所能得到的未来奖励的期望值，用 $V_{\pi}(s)$ 表示。数学上，可以表示为：
$V_\pi(s)=E_\pi[G_t|S_t=s]=E_\pi[\sum_{t=0}^\infty \gamma^tR_{t}|S_t=s] \tag{1}$

其中，

$V_\pi(s)$ 表示在状态 $s$ 下，遵循策略 $\pi$ 的状态价值。
$E_\pi$ 表示对策略 $\pi$ 下的未来期望求期望值。
$G_t$ 表示当前时间步开始的折扣回报，前文：马尔科夫决策过程进行过详细介绍。

1.2 最优策略（Optimal Policy）

通过状态价值,定义最优策略，用 $\pi^*$ 表示。最优策略应该满足下式：
$V_{\pi^*}(s) \geq V_{\pi}(s), \forall s \in S \tag{2}$

2. 贝尔曼方程

2.1 贝尔曼方程（Bellman Equation）

从状态 $s$ 开始，按照某一策略 $\pi$ 行动时，该状态的价值函数 $V_\pi(s)$ 可以表示为:
$V_\pi(s)=\sum_a{\pi(a|s)}[\sum_r{p(r|s,a)r}+\gamma \sum_{s'}{p(s'|s,a)V_\pi(s')}] \tag{3}$

$V_\pi(s)$ 是在状态 $s$ 下遵循策略 $\pi$ 的状态价值。
$\pi(a|s)$ 是在状态 $s$ 下采取行动 $a$ 的概率。
$p (s^{'} ∣ s, a)$ 是状态 $s$ ，采取行动 $a$ 后转移到状态 $s^{'}$ 的概率.
$r$ 是即时奖励。
$\gamma \in [0, 1)$ 是未来的折扣因子。

2.2 贝尔曼方程的推导

由于 $V_\pi(s)$ 是回报 $G_t$ 的期望，则有，
$\begin{aligned} V_\pi(s) &= E_\pi[G_t|S_t=s] \\ &= E_\pi[R_t+\gamma G_{t+1}|S_t=s] \\ &= E_\pi[R_t|S_t=s] + \gamma E_\pi[G_{t+1}|S_t=s] \tag{4} \end{aligned}$

其中 $E_\pi[R_t|S_t=s]$ 为即时奖励，
$\begin{aligned} E_\pi[R_t|S_t=s] &= \sum_a\{ {\pi(a|s)E[R_t|S_t=s,A_t=a]} \} \\ &= \sum_a\{{ \pi(a|s)\sum_r p(r|s,a)}r \} \tag{5} \end{aligned}$

其中 $E_\pi[G_{t+1}|S_t=s]$ 为未来奖励，
$\begin{aligned} E_\pi[G_{t+1}|S_t=s] &= \sum_{s'}\{ E[G_{t+1}|S_t=s,S_{t+1}=s']p(s'|s) \} \\ &= \sum_{s'}\{ E[G_{t+1}|S_{t+1}=s']p(s'|s) \} (马尔科夫的无记忆性) \\ &= \sum_{s'}\{ V_{\pi}(s)p(s'|s) \} \\ &= \sum_{s'}\{ V_{\pi}(s) \sum_a p(s'|s,a)\pi(a,s) \} \\ \tag{6} \end{aligned}$

综上，由 $(4) (5) (6)$ 得出贝尔曼方程的数学表达，
$\begin{aligned} V_\pi(s) &= E_\pi[R_t|S_t=s] + \gamma E_\pi[G_{t+1}|S_t=s] \\ &= \sum_a { \pi(a|s)\sum_r p(r|s,a)r} \ +\gamma \sum_{a} \pi(a|s) \sum_{s'}p(s'|s,a)V_{\pi}(s') \\ &= \sum_a \pi(a|s)[\sum_r p(r|s,a)r + \gamma \sum_{s'}p(s'|s,a)V_{\pi}(s')] \tag{7} \end{aligned}$

2.3 贝尔曼方程矩阵形式（Matrix-vector form of Bellman Equation）

重写贝尔曼方程：
$V_{\pi}(s) = R_{\pi}(s) + \gamma \sum_{s'}p_{\pi}(s'|s)V_{\pi}(s') \tag{8}$

其中，
$R_{\pi}(s) = \sum_a \pi(a|s)\sum_r p(r|s,a)r$

$p_{\pi}(s'|s) = \sum_a \pi(a|s)p(s'|s,a)$

根据 $(8)$ 式，有
$V_{\pi}(s_i) = R_{\pi}(s_i) + \gamma \sum_{s_j}p_{\pi}(s_j|s_i)V_{\pi}(s_j) \tag{9}$

其中 $i$ 为当前时间步的状态个数， $j$ 为下一时间步的状态个数，将 $i\times j$ 个 $(8)$ 式组合，得到贝尔曼方程的矩阵形式：
$V_{\pi} = R_{\pi} + \gamma P_{\pi}V_{\pi} \tag{10}$

其中，
$\begin{aligned} V_{\pi} &= [V_{\pi}(s_1),V_{\pi}(s_2), ...,V_{\pi}(s_n)]^T \in R^n \\ R_{\pi} &= [R_{\pi}(s_1),R_{\pi}(s_2), ...,R_{\pi}(s_n)]^T \in R^n \\ P_{\pi} &\in R^{n \times n} \end{aligned}$

$[P_{\pi}]_{ij}=P_{\pi}(s_j|s_i)$ 是状态转移矩阵。

2.4 求解贝尔曼方程

方法一：矩阵求解

通过矩阵运算，得到贝尔曼方程的解：
$V_{\pi} = (I - \gamma P_{\pi})^{-1}R_{\pi} \tag{11}$

缺点：运算量巨大，费时费力（通常不采用）。

方法二：迭代算法（优先采用）

$V_{k+1} = R_{\pi} + \gamma P_{\pi}V_k \tag{12}$

当 $\to \infty，V_{k} \to (I - \gamma P_{\pi})^{-1}R_{\pi}$

优点：通过迭代次数控制收敛精度（优先采用）。

3. 动作价值函数

3.1动作价值函数（Action Value Fuction）

用来评估在特定状态 $s$ 下采取某个动作 $a$ 后，所能获得的预期回报的函数，用 $Q_{\pi}(s,a)$ 表示。它比状态价值函数（State Value Function）提供了更细致的信息，因为它不仅考虑了状态本身的价值，还考虑了采取特定动作的重要性。 数学表达如下 $(13)$ 式：
$Q_{\pi}(s,a) = E[G_t|S_t=s, A_t=a] \tag{13}$

而
$E[G_t|S_t=t] = \sum_a E[G_t|S_t=s, A_t=a]\pi(a|s) \tag{14}$

在 $(14)$ 式中，
$\begin{aligned} V_{\pi}(s) &= E[G_t|S_t =t] \\ Q_{\pi}(s,a) &= \sum_a E[G_t|S_t=s, A_t=a]\pi(a|s) \end{aligned}$

因此，有
$V_{\pi}(s) = \sum_a \pi(a|s)Q_{\pi}(s,a) \tag{15}$

对比 $(15)$ 式与 $(7)$ 式贝尔曼方程，可以得出
$Q_{\pi}(s,a) = \sum_r p(r|s,a)r + \gamma \sum_{s'}p(s'|s,a)V_{\pi}(s')$

3.2 贝尔曼最优方程（Bellman Optimal Equation, BOE）

给出定义：
$\begin{aligned} V_{\pi}(s) &= max_{\pi}\sum_a \pi(a|s)[\sum_r p(r|s,a)r + \gamma \sum_{s'}p(s'|s,a)V_{\pi}(s')] \\ &= max_{\pi} \sum_a \pi(a|s)Q_{\pi}(s,a) \end{aligned}$

向量形式：
$V_{\pi} = max_{\pi}(R_{\pi}+\gamma P_{\pi}V_{\pi})$

由压缩映射原理，可以证明（证明略）：

存在性：存在最优状态 $V^*$
唯一性：最优状态 $V^*$ 唯一（注意： $V^*$ 唯一， ${{\pi}^*}$ 不一定唯一）
求解：迭代算法 $V_{k+1} = f(V_k) = max_{\pi}(R_{\pi}+\gamma P_{\pi}V_{k})$

若有不足之处，欢迎批评指正！

越菜越摆

关注

25
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习（Reinforcement Lrarning，RL）03：贝尔曼方程

评估智能体从某特定状态开始，遵循某一策略进行决策时，所能获得的预期累计奖励的大小。具体来说，状态价值函数定义为智能体处于状态。进行后续决策所能得到的未来奖励的期望值，用。后，所能获得的预期回报的函数，用。通过状态价值,定义最优策略，用。为下一时间步的状态个数，将。行动时，该状态的价值函数。若有不足之处，欢迎批评指正！得出贝尔曼方程的数学表达，为当前时间步的状态个数，式贝尔曼方程，可以得出。
复制链接

扫一扫