贝尔曼方程-推导与联系

Gideon_k_Marx

已于 2024-10-21 17:32:10 修改

阅读量5.2k

点赞数 10

文章标签：强化学习机器学习

于 2020-04-12 02:12:09 首次发布

本文链接：https://blog.csdn.net/u013855642/article/details/105463771

版权

本文详细介绍了贝尔曼方程的推导过程，从基础的期望值计算开始，逐步展开，最终得出强化学习中的核心方程。通过交换求和符号和运用一致性收敛性质，展示了如何从状态转移概率和奖励函数中导出贝尔曼方程，为理解强化学习的动态规划基础提供了清晰的理论框架。

摘要由CSDN通过智能技术生成

更新于2024.10.21，在做了一些工作后对贝尔曼方程有了新的理解，此外发现文章中存在的一些错误，故重新编辑，在这里进行一个更新。
贝尔曼方程实际上有着许多的表达方式，在不同的场景下也有着不同的称呼，但是这些表达方式之间均可以相互转化，且均描述了某一状态 $s t a t e$ （或是状态-动作对 $s t a t e - a c t i o n p ai r$ ）与其他所有状态或是状态-动作对的关系，本文包含以下几个部分，一是状态价值函数间的贝尔曼方程，二是动作价值函数间的贝尔曼方程，三是总结了不同部分的联系：
由定义出发，可以得 $V$ 与 $Q$ 的联系：
$v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q)$
而贝尔曼方程则有三种表述方式：
$\begin{aligned} &v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q) \end{aligned}$

（一）贝尔曼方程-推导与联系

一、状态价值函数（state-Value function）间的贝尔曼方程
二、动作价值函数（state-action Value function）间的贝尔曼方程
三、总结

一、状态价值函数（state-Value function）间的贝尔曼方程

这一次我们从累计折扣回报 $G_{t}$ 出发， $G_{t}$ 被定义为：
$G_t \doteq R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots$
状态价值函数 $v_\pi(s)（state-Value function）$ 被定义为：
$v_\pi(s) \doteq \mathbb{E}\left[G_t \mid S_t=s\right]$
这也是sutton《强化学习》3.5节中给出的形式，我们的目的是构建状态之间的联系。首先由
$\begin{aligned} G_t & =R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots \\ & =R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right) \\ & =R_{t+1}+\gamma G_{t+1} \end{aligned}$
进而状态价值函数可以被表示为：
$\begin{aligned} v_\pi(s) & =\mathbb{E}\left[G_t \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1}+\gamma G_{t+1} \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right] \end{aligned}$
状态价值函数由两部分构成，对于 $\mathbb{E}\left[R_{t+1} \mid S_t=s\right]$ 有：
$\begin{aligned} \mathbb{E}\left[R_{t+1} \mid S_t=s\right] & =\sum_{r \in R}r_{t+1}p(r_{t+1}\mid S_{t}=s)\\ &=\sum_{r \in R}\sum_{a \in A}r_{t+1}p(r_{t+1},A_{t}=a\mid S_{t}=s)\\ &=\sum_{r \in R}\sum_{a \in A}r_{t+1}p(r_{t+1}\mid S_{t}=s,A_{t}=a)\pi(a\mid s)\\ &=\sum_{a \in A}\pi(a\mid s)\sum_{r \in R}r_{t+1}p(r_{t+1}\mid S_{t}=s,A_{t}=a)\\ &=\underline{\sum_{a \in A}\pi(a\mid s)\sum_{s^{\prime} \in S}\sum_{r \in R}rp(s^{\prime},r\mid s,a)}\\ & =\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{r \in \mathcal{R}} p(r \mid s, a) r . \end{aligned}$
下划线部分即对应于sutton《强化学习》3.5节中贝尔曼方程的的第一部分。接下来来处理 $\mathbb{E}\left[G_{t+1} \mid S_t=s\right]$ ：
$\begin{aligned} \mathbb{E}\left[G_{t+1} \mid S_t=s\right] &=\sum G_{t+1}p(G_{t+1}\mid S_t=s)\\ &=\sum_{s^{\prime}\in S}\sum G_{t+1}p(G_{t+1},s^{\prime}\mid S_t=s)\\ &=\sum_{s^{\prime}\in S}\sum G_{t+1}p(G_{t+1}\mid S_t=s,S_{t+1}=s^{\prime})p(s^{\prime}\mid S_{t+1}=s^{\prime})\\ & =\sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}\left[G_{t+1} \mid S_t=s, S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}\left[G_{t+1} \mid S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\underline{\sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s\right)}\\ &=\sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) \sum_{a \in \mathcal{A}} p\left(s^{\prime} \mid s, a\right) \pi(a \mid s)\\ &=\sum_{a \in \mathcal{A}} \pi(a \mid s)\sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right)v_\pi\left(s^{\prime}\right)\\ \end{aligned}$
为了与sutton的表述相同，对于下划线部分：
$\begin{aligned} \sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s\right)&=\sum_{a\in A}\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime},a \mid s\right)\\ &=\sum_{a\in A}\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s,a\right)\pi(a\mid s)\\ &=\sum_{a\in A}\pi(a\mid s)\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s,a\right)\\ &=\underline{\sum_{a\in A}\pi(a\mid s)\sum_{s^{\prime} \in \mathcal{S}}\sum_{r \in \mathcal{R}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime},r \mid s,a\right)}\\ \end{aligned}$
融合上面两个部分：
$\begin{aligned} v_\pi(s) & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right], \\ & =\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \end{aligned}$
从上式可以看出状态价值函数由两部分构成，第一部分是平均瞬时回报第二部分是平均未来回报。继续整理得：
$\begin{equation} v_\pi(s) =\sum_{a \in \mathcal{A}} \pi(a \mid s)\left[\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right] \end{equation}$
若是表述为期望形式则有：
$v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V)$
这个形式描述了状态价值函数间的关系.
若是代入下划线部分则得到sutton《强化学习》3.5节中的表述：
$v_\pi(s) =\sum_a \pi(a \mid s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_\pi\left(s^{\prime}\right)\right]$
实际上就是多做了一次全概率公式的求和。这也说明贝尔曼方程有着相当多形式的描述。上面的描述实际上属于 $p ai r - w i se$ 形式的描述，若是将不同状态间的描述排列成方程组的形式即可得到 $ma t r i x - v ec t or$ 形式的贝尔曼方程：
$\underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}=\underbrace{\left[\begin{array}{c} r_\pi\left(s_1\right) \\ r_\pi\left(s_2\right) \\ r_\pi\left(s_3\right) \\ r_\pi\left(s_4\right) \end{array}\right]}_{r_\pi}+\gamma \underbrace{\left[\begin{array}{llll} p_\pi\left(s_1 \mid s_1\right) & p_\pi\left(s_2 \mid s_1\right) & p_\pi\left(s_3 \mid s_1\right) & p_\pi\left(s_4 \mid s_1\right) \\ p_\pi\left(s_1 \mid s_2\right) & p_\pi\left(s_2 \mid s_2\right) & p_\pi\left(s_3 \mid s_2\right) & p_\pi\left(s_4 \mid s_2\right) \\ p_\pi\left(s_1 \mid s_3\right) & p_\pi\left(s_2 \mid s_3\right) & p_\pi\left(s_3 \mid s_3\right) & p_\pi\left(s_4 \mid s_3\right) \\ p_\pi\left(s_1 \mid s_4\right) & p_\pi\left(s_2 \mid s_4\right) & p_\pi\left(s_3 \mid s_4\right) & p_\pi\left(s_4 \mid s_4\right) \end{array}\right]}_{P_\pi} \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}$
即：
$v_\pi=r_\pi+\gamma P_\pi v_\pi$
其中 $v_\pi=\left[v_\pi\left(s_1\right), \ldots, v_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n$ ， $r_\pi=\left[r_\pi\left(s_1\right), \ldots, r_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n$ ， $P_\pi \in \mathbb{R}^{n \times n}$ ， $\left[P_\pi\right]_{i j}=p_\pi\left(s_j \mid s_i\right)$ 。这一形式在表格型MDP中有闭式解，也多用于表格型MDP的推导，有兴趣的可以自行查阅

二、动作价值函数（state-action Value function）间的贝尔曼方程

状态-动作对 $(s, a)$ 的动作价值函数 $q_\pi(s, a)（action-Value function）$ 被定义为：
$q_\pi(s, a) \doteq \mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]$
由全概率公式：
$\underbrace{\mathbb{E}\left[G_t \mid S_t=s\right]}_{v_\pi(s)}=\sum_{a \in \mathcal{A}} \underbrace{\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]}_{q_\pi(s, a)} \pi(a \mid s)$
得：
$\begin{aligned} v_\pi(s)&=\sum_{a \in \mathcal{A}} \pi(a \mid s) q_\pi(s, a)\\ &=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q) \end{aligned}$
期望形式描述了状态价值与动作价值之间的联系，代入公式（1）即得：
$\sum_{a \in \mathcal{A}} \pi(a \mid s) q_\pi(s, a)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left[\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right]$
两边同时去掉 $\sum_{a \in \mathcal{A}} \pi(a \mid s)$ 即得：
$\begin{equation} q_\pi(s, a)=\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \end{equation}$
若以期望形式描述，则可以表述为：
$q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V)$
这一期望形式描述了动作价值与状态价值之间的联系。
$v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q)$
将定义的期望形式代入即有：
$q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q)$
这一形式则描述了动作价值之间的联系。类似的，动作价值函数的贝尔曼方程同样有矩阵向量形式，此处略去不表。

三、总结

由定义出发，可以得 $V$ 与 $Q$ 的联系：
$v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q)$
而贝尔曼方程则有三种表述方式：
$\begin{aligned} &v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q) \end{aligned}$