【强化学习的数学原理】第二课：贝尔曼公式

♚℡灬

已于 2023-10-25 11:31:31 修改

阅读量235

点赞数

分类专栏：强化学习文章标签：机器学习算法人工智能

于 2023-10-25 11:31:22 首次发布

本文链接：https://blog.csdn.net/qq_44044341/article/details/134030891

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

【例子 -> return重要性】

在这里插入图片描述

问题：能否用数学工具描述从 $s_1$ 出发，哪个策略是最好的？

回答：return可以评估一个策略

策略1：
$\begin{aligned} \operatorname{return}_1 & =0+\gamma 1+\gamma^2 1+\ldots \\ & =\gamma\left(1+\gamma+\gamma^2+\ldots\right) \\ & =\frac{\gamma}{1-\gamma} \end{aligned}$
策略2：
$\begin{aligned} \text { return }_2 & =-1+\gamma 1+\gamma^2 1+\ldots, \\ & =-1+\gamma\left(1+\gamma+\gamma^2+\ldots\right), \\ & =-1+\frac{\gamma}{1-\gamma} . \end{aligned}$
策略3：
$\begin{aligned} \text { return }_3 & =0.5\left(-1+\frac{\gamma}{1-\gamma}\right)+0.5\left(\frac{\gamma}{1-\gamma}\right) \\ & =-0.5+\frac{\gamma}{1-\gamma} . \end{aligned}$

$\text { return }_1>\text { return }_3>\text { return }_2$

✨return计算

在这里插入图片描述

方法1： $v_i$ 表示从 $s_i(i=1,2,3,4)$ 出发的return
$\begin{aligned} & v_1=r_1+\gamma r_2+\gamma^2 r_3+\ldots \\ & v_2=r_2+\gamma r_3+\gamma^2 r_4+\ldots \\ & v_3=r_3+\gamma r_4+\gamma^2 r_1+\ldots \\ & v_4=r_4+\gamma r_1+\gamma^2 r_2+\ldots \end{aligned}$
方法2（Bootstrapping）：表明我们从不同状态出发得到的return，依赖于从其他状态出发得到的return
$\begin{aligned} & v_1=r_1+\gamma\left(r_2+\gamma r_3+\ldots\right)=r_1+\gamma v_2 \\ & v_2=r_2+\gamma\left(r_3+\gamma r_4+\ldots\right)=r_2+\gamma v_3 \\ & v_3=r_3+\gamma\left(r_4+\gamma r_1+\ldots\right)=r_3+\gamma v_4 \\ & v_4=r_4+\gamma\left(r_1+\gamma r_2+\ldots\right)=r_4+\gamma v_1 \end{aligned}$

$\underbrace{\left[\begin{array}{l} v_1 \\ v_2 \\ v_3 \\ v_4 \end{array}\right]}_{\mathbf{v}}=\left[\begin{array}{l} r_1 \\ r_2 \\ r_3 \\ r_4 \end{array}\right]+\left[\begin{array}{l} \gamma v_2 \\ \gamma v_3 \\ \gamma v_4 \\ \gamma v_1 \end{array}\right]=\underbrace{\left[\begin{array}{l} r_1 \\ r_2 \\ r_3 \\ r_4 \end{array}\right]}_{\mathbf{r}}+\gamma \underbrace{\left[\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{array}\right]}_{\mathbf{P}} \underbrace{\left[\begin{array}{l} v_1 \\ v_2 \\ v_3 \\ v_4 \end{array}\right]}_{\mathbf{v}}$

$\mathbf{v}=\mathbf{r}+\gamma \mathbf{P} \mathbf{v}$

这个公式就是贝尔曼公式（针对这个特定的问题）
说明我一个状态的值依赖于其他状态的值
矩阵形式如何求解

【状态值（state value）】

✨单步过程

$S_t \stackrel{A_t}{\longrightarrow} R_{t+1}, S_{t+1}$

$t, t + 1$ ：离散时间实例
$S_t$ ：时间 $t$ 的状态
$A_t$ ：在状态 $S_t$ 做的动作
$R_{t+1}$ ：在行为 $A_t$ 后获得的奖励
$S_{t+1}$ ：执行动作 $A_t$ 后的下一个状态

每一步受下列概率分布的制约：

$S_t \rightarrow A_t$ ： $\pi\left(A_t=a \mid S_t=s\right)$
$S_t, A_t \rightarrow R_{t+1}$ ：reward probability $p\left(R_{t+1}=r \mid S_t=s, A_t=a\right)$
$S_t, A_t \rightarrow S_{t+1}$ ：state transition probability $p\left(S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right)$

✨多步过程

$S_t \stackrel{A_t}{\longrightarrow} R_{t+1}, S_{t+1} \stackrel{A_{t+1}}{\longrightarrow} R_{t+2}, S_{t+2} \stackrel{A_{t+2}}{\longrightarrow} R_{t+3}, \ldots$

discounted return： $G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots$

✨状态值

$G_t$ 是对一个 trajectory 的 discounted return ，state value 是对 $G_t$ 的一个期望值
$v_\pi(s)=\mathbb{E}\left[G_t \mid S_t=s\right]$

$v_\pi(s)$ 是从 $s$ 出发，从不同的轨迹出发其 $G_t$ 也是不同的
$v_\pi(s)$ 是依赖于不同的 $\pi$ 的，从不同的策略走其轨迹不同其 $G_t$ 也是不同的
state value 不仅仅是数值而且是价值，价值越大得到更多的return

问题：return 和 state value 有什么不同

回答：

return 是针对单个 trajectory 得到的 return

state value 是对多个 trajectory 得到return 再求平均值

加入从一个状态出发会有多个trajectory 那么这两个是显然有区别的；加入从一个状态出发只有一个trajectory 那么这两个是一样的

【贝尔曼公式推导】

✨定义：

它描述了不同状态的state value之间的关系

✨推导：

对于随机的一个trajectory ：
$S_t \stackrel{A_t}{\longrightarrow} R_{t+1}, S_{t+1} \stackrel{A_{t+1}}{\longrightarrow} R_{t+2}, S_{t+2} \stackrel{A_{t+2}}{\longrightarrow} R_{t+3}, \ldots$
其return $G_t$ 是：
$\begin{aligned} G_t & =R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots, \\ & =R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right), \\ & =R_{t+1}+\gamma G_{t+1}, \end{aligned}$
其state value是：
$\begin{aligned} v_\pi(s) & =\mathbb{E}\left[G_t \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1}+\gamma G_{t+1} \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right] \end{aligned}$
我们分别分析其两个均值：

对于第一个 $\mathbb{E}\left[R_{t+1} \mid S_t=s\right]:$
$\begin{aligned} \mathbb{E}\left[R_{t+1} \mid S_t=s\right] & =\sum_a \pi(a \mid s) \mathbb{E}\left[R_{t+1} \mid S_t=s, A_t=a\right] \\ & =\sum_a \pi(a \mid s) \sum_r p(r \mid s, a) r \end{aligned}$
对于第二个 $\mathbb{E}\left[G_{t+1} \mid S_t=s\right]:$ 它是未来奖励的均值
$\begin{aligned} \mathbb{E}\left[G_{t+1} \mid S_t=s\right] & =\sum_{s^{\prime}} \mathbb{E}\left[G_{t+1} \mid S_t=s, S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\sum_{s^{\prime}} \mathbb{E}\left[G_{t+1} \mid S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\sum_{s^{\prime}} v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s\right) \\ & =\sum_{s^{\prime}} v_\pi\left(s^{\prime}\right) \sum_a p\left(s^{\prime} \mid s, a\right) \pi(a \mid s) \end{aligned}$

贝尔曼公示的表达式：该式子对应于状态空间所有的状态都成立
$\begin{aligned} v_\pi(s) & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right], \\ & =\underbrace{\sum_a \pi(a \mid s) \sum_r p(r \mid s, a) r}_{\text {mean of immediate rewards }}+\underbrace{\gamma \sum_a \pi(a \mid s) \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right),}_{\text {mean of future rewards }} \\ & =\sum_a \pi(a \mid s)\left[\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right], \quad \forall s \in \mathcal{S} . \end{aligned}$

✨例子1：

在这里插入图片描述

我们将这个图中所有的贝尔曼公式写出来：

$s 1$ ：
$\begin{aligned} & \pi\left(a=a_3 \mid s_1\right)=1 \text { and } \pi\left(a \neq a_3 \mid s_1\right)=0 . \\ & p\left(s^{\prime}=s_3 \mid s_1, a_3\right)=1 \text { and } p\left(s^{\prime} \neq s_3 \mid s_1, a_3\right)=0 . \\ & p\left(r=0 \mid s_1, a_3\right)=1 \text { and } p\left(r \neq 0 \mid s_1, a_3\right)=0 . \end{aligned}$
在这里插入图片描述

$v_\pi\left(s_1\right)=0+\gamma v_\pi\left(s_3\right)$
同理得到：
$\begin{aligned} & v_\pi\left(s_1\right)=0+\gamma v_\pi\left(s_3\right), \\ & v_\pi\left(s_2\right)=1+\gamma v_\pi\left(s_4\right) \\ & v_\pi\left(s_3\right)=1+\gamma v_\pi\left(s_4\right) \\ & v_\pi\left(s_4\right)=1+\gamma v_\pi\left(s_4\right) . \end{aligned}$
通过求解得到：
$\begin{aligned} & v_\pi\left(s_4\right)=\frac{1}{1-\gamma}, \\ & v_\pi\left(s_3\right)=\frac{1}{1-\gamma}, \\ & v_\pi\left(s_2\right)=\frac{1}{1-\gamma}, \\ & v_\pi\left(s_1\right)=\frac{\gamma}{1-\gamma} . \end{aligned}$
假设 $\gamma=0.9$ 得到：
$\begin{aligned} & v_\pi\left(s_4\right)=\frac{1}{1-0.9}=10 \\ & v_\pi\left(s_3\right)=\frac{1}{1-0.9}=10 \\ & v_\pi\left(s_2\right)=\frac{1}{1-0.9}=10 \\ & v_\pi\left(s_1\right)=\frac{0.9}{1-0.9}=9 \end{aligned}$
在这里插入图片描述

假设一个状态价值高则说明有价值

✨例子2：

在这里插入图片描述

其贝尔曼公式：
$\begin{aligned} & v_\pi\left(s_1\right)=0.5\left[0+\gamma v_\pi\left(s_3\right)\right]+0.5\left[-1+\gamma v_\pi\left(s_2\right)\right], \\ & v_\pi\left(s_2\right)=1+\gamma v_\pi\left(s_4\right), \\ & v_\pi\left(s_3\right)=1+\gamma v_\pi\left(s_4\right), \\ & v_\pi\left(s_4\right)=1+\gamma v_\pi\left(s_4\right) . \end{aligned}$
对其求解：
$\begin{aligned} v_\pi\left(s_4\right) & =\frac{1}{1-\gamma}, \quad v_\pi\left(s_3\right)=\frac{1}{1-\gamma}, \quad v_\pi\left(s_2\right)=\frac{1}{1-\gamma} \\ v_\pi\left(s_1\right) & =0.5\left[0+\gamma v_\pi\left(s_3\right)\right]+0.5\left[-1+\gamma v_\pi\left(s_2\right)\right] \\ & =-0.5+\frac{\gamma}{1-\gamma} . \end{aligned}$
假设 $\gamma=0.9$ 得到：
$v_\pi\left(s_4\right)=10, \quad v_\pi\left(s_3\right)=10, \quad v_\pi\left(s_2\right)=10, \quad v_\pi\left(s_1\right)=-0.5+9=8.5 .$
通过观察发现其 $s 1$ 的 state value 是8.5没有刚才那个策略好

【贝尔曼公式矩阵向量形式】

$v_\pi(s)=\sum_a \pi(a \mid s)\left[\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right]$
对贝尔曼公式进行重写得到：
$v_\pi(s)=r_\pi(s)+\gamma \sum_{s^{\prime}} p_\pi\left(s^{\prime} \mid s\right) v_\pi\left(s^{\prime}\right)$

$r_\pi(s) \triangleq \sum_a \pi(a \mid s) \sum_r p(r \mid s, a) r$ ：为立即奖励的平均值
$p_\pi\left(s^{\prime} \mid s\right) \triangleq \sum_a \pi(a \mid s) p\left(s^{\prime} \mid s, a\right)$ ：为从 $s$ 转到 $s^{'}$ 的概率

对状态从 $s_i(i=1, \ldots, n)$ ，则贝尔曼公式为：
$v_\pi\left(s_i\right)=r_\pi\left(s_i\right)+\gamma \sum_{s_j} p_\pi\left(s_j \mid s_i\right) v_\pi\left(s_j\right)$
转为矩阵向量形式：
$v_\pi=r_\pi+\gamma P_\pi v_\pi$

$v_\pi=\left[v_\pi\left(s_1\right), \ldots, v_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n$
$r_\pi=\left[r_\pi\left(s_1\right), \ldots, r_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n$
$P_\pi \in \mathbb{R}^{n \times n}$ , 其中 $\left[P_\pi\right]_{i j}=p_\pi\left(s_j \mid s_i\right)$ 为状态转移矩阵

假如有四个状态 $v_\pi=r_\pi+\gamma P_\pi v_\pi$ 可以写成：
$\underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}=\underbrace{\left[\begin{array}{l} r_\pi\left(s_1\right) \\ r_\pi\left(s_2\right) \\ r_\pi\left(s_3\right) \\ r_\pi\left(s_4\right) \end{array}\right]}_{r_\pi}+\gamma \quad \underbrace{\left[\begin{array}{llll} p_\pi\left(s_1 \mid s_1\right) & p_\pi\left(s_2 \mid s_1\right) & p_\pi\left(s_3 \mid s_1\right) & p_\pi\left(s_4 \mid s_1\right) \\ p_\pi\left(s_1 \mid s_2\right) & p_\pi\left(s_2 \mid s_2\right) & p_\pi\left(s_3 \mid s_2\right) & p_\pi\left(s_4 \mid s_2\right) \\ p_\pi\left(s_1 \mid s_3\right) & p_\pi\left(s_2 \mid s_3\right) & p_\pi\left(s_3 \mid s_3\right) & p_\pi\left(s_4 \mid s_3\right) \\ p_\pi\left(s_1 \mid s_4\right) & p_\pi\left(s_2 \mid s_4\right) & p_\pi\left(s_3 \mid s_4\right) & p_\pi\left(s_4 \mid s_4\right) \end{array}\right]}_{P_\pi} \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}$

✨例子1：

在这里插入图片描述

$\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]=\left[\begin{array}{l} 0 \\ 1 \\ 1 \\ 1 \end{array}\right]+\gamma\left[\begin{array}{llll} 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \end{array}\right]\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]$

✨例子2：

在这里插入图片描述

$\left[\begin{array}{c} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]=\left[\begin{array}{c} 0.5(0)+0.5(-1) \\ 1 \\ 1 \\ 1 \end{array}\right]+\gamma\left[\begin{array}{cccc} 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \end{array}\right]\left[\begin{array}{c} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]$

【贝尔曼公式求解状态值】

策略评估：是强化学习中非常关键的工具，我们只有评价一个策略好不好才能进一步改进找到最优的策略
$v_\pi=r_\pi+\gamma P_\pi v_\pi$

✨求解方法1（closed-form solution）：

$v_\pi=\left(I-\gamma P_\pi\right)^{-1} r_\pi$

通过直接求解，但是这种方法需要求解其逆矩阵，所以一般不采用

✨求解方法2（iterative solution）：

$v_{k+1}=r_\pi+\gamma P_\pi v_k$

在这里插入图片描述

我们发现：
$v_k \rightarrow v_\pi=\left(I-\gamma P_\pi\right)^{-1} r_\pi, \quad k \rightarrow \infty$

✨例子1：

在这里插入图片描述

这两个例子就很好，用了不同的策略但是最终的result一样

✨例子2：

在这里插入图片描述

这两个策略不好，两个state value都是负的。

我们可以计算state value来评价一个策略好还是不好

【动作值（action value）】

state value：agent从一个状态出发所得到的average return
action value：agent从一个状态出发并且选择了一个action后得到的average return

在强化学习中，我们选择怎样的策略，策略指的是在一个状态我要选择什么样的action，action value可以判断选择哪些。

✨定义：

$q_\pi(s, a)=\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]$

$q_\pi(s, a)$ ：依赖于从哪个状态出发选择怎样的action；其次他也依赖于策略 $\pi$

✨state value与action value关系：

$\begin{aligned} &\underbrace{\mathbb{E}\left[G_t \mid S_t=s\right]}_{v_\pi(s)}=\sum_a \underbrace{\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]}_{q_\pi(s, a)} \pi(a \mid s)\\ &v_\pi(s)=\sum_a \pi(a \mid s) q_\pi(s, a) \end{aligned}$

state value：我有许多个action，我选择不同action得到的action value的平均值

根据之前的贝尔曼公式：
$v_\pi(s)=\sum_a \pi(a \mid s)[\underbrace{\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)}_{q_\pi(s, a)}]$
我们得到action value的表达式：
$q_\pi(s, a)=\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)$

✨例子：

在这里插入图片描述

$s_1$ 的action value ： $q_\pi\left(s_1, a_2\right)=-1+\gamma v_\pi\left(s_2\right)$

问题： $q_\pi\left(s_1, \underline{a_1}\right), q_\pi\left(s_1, \underline{a_3}\right), q_\pi\left(s_1, \underline{a_4}\right), q_\pi\left(s_1, \underline{a_5}\right)=?$

回答：虽然现在策略告诉我们往右走但是该状态不一定好，实际上所以的action都可以计算的
$\begin{aligned} & q_\pi\left(s_1, a_1\right)=-1+\gamma v_\pi\left(s_1\right) \\ & q_\pi\left(s_1, a_3\right)=0+\gamma v_\pi\left(s_3\right) \\ & q_\pi\left(s_1, a_4\right)=-1+\gamma v_\pi\left(s_1\right) \\ & q_\pi\left(s_1, a_5\right)=0+\gamma v_\pi\left(s_1\right) \end{aligned}$

【小结】

在这里插入图片描述

♚℡灬

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【强化学习的数学原理】第二课：贝尔曼公式

【例子 -> return重要性】问题：能否用数学工具描述从s1s_1s1出发，哪个策略是最好的？回答：return可以评估一个策略策略1：return⁡1=0+γ1+γ21+…=γ(1+γ+γ2+…)=γ1−γ\begin{aligned}\operatorname{return}_1 & =0+\gamma 1+\gamma^2 1+\ldots \\& =\gamma\left(1+\gamma+\gamma^2+\ldots\right) \\&am
复制链接

扫一扫

专栏目录