【强化学习的数学原理】第三课：贝尔曼最优公式

最新推荐文章于 2024-07-08 22:12:26 发布

♚℡灬

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量146

点赞数

分类专栏：强化学习文章标签：算法

本文链接：https://blog.csdn.net/qq_44044341/article/details/134042571

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

两个概念：最优状态值，最优策略
一个工具：贝尔曼最优公式（BOE）

【例子-如何改进策略】

在这里插入图片描述

贝尔曼等式：
$\begin{aligned} & v_\pi\left(s_1\right)=-1+\gamma v_\pi\left(s_2\right), \\ & v_\pi\left(s_2\right)=+1+\gamma v_\pi\left(s_4\right), \\ & v_\pi\left(s_3\right)=+1+\gamma v_\pi\left(s_4\right), \\ & v_\pi\left(s_4\right)=+1+\gamma v_\pi\left(s_4\right) . \end{aligned}$
假设 $\gamma=0.9$ ，我们能够计算得到 $v_\pi\left(s_4\right)=v_\pi\left(s_3\right)=v_\pi\left(s_2\right)=10, \quad v_\pi\left(s_1\right)=8$

我们计算 $s_1$ 的action value：
$\begin{aligned} & q_\pi\left(s_1, a_1\right)=-1+\gamma v_\pi\left(s_1\right)=6.2, \\ & q_\pi\left(s_1, a_2\right)=-1+\gamma v_\pi\left(s_2\right)=8, \\ & q_\pi\left(s_1, a_3\right)=0+\gamma v_\pi\left(s_3\right)=9, \\ & q_\pi\left(s_1, a_4\right)=-1+\gamma v_\pi\left(s_1\right)=6.2, \\ & q_\pi\left(s_1, a_5\right)=0+\gamma v_\pi\left(s_1\right)=7.2 . \end{aligned}$

问题：当前策略不太好，我们如何进行改进？

回答：使用action value，当前策略如下：
$\pi\left(a \mid s_1\right)= \begin{cases}1 & a=a_2 \\ 0 & a \neq a_2\end{cases}$
计算action value：
$\begin{aligned} & q_\pi\left(s_1, a_1\right)=6.2, q_\pi\left(s_1, a_2\right)=8, q_\pi\left(s_1, a_3\right)=9 \\ & q_\pi\left(s_1, a_4\right)=6.2, q_\pi\left(s_1, a_5\right)=7.2 . \end{aligned}$
如果我们选择最大的action value（ $a^*=\arg \max _a q_\pi\left(s_1, a\right)=a_3$ ），一个新的政策如下（往下走）：
$\pi_{\text {new }}\left(a \mid s_1\right)= \begin{cases}1 & a=a^* \\ 0 & a \neq a^*\end{cases}$
发现确实使用 $a_3$ 策略的时候效果更好

【最优策略的定义】

state value能够用来衡量一个策略是好还是不好，如果满足下面式子，则表明 $\pi_1$ 比 $\pi_2$ 好
$v_{\pi_1}(s) \geq v_{\pi_2}(s) \quad \text { for all } s \in \mathcal{S}$

✨定义：

一个策略 $\pi^*$ 是最优的：对于所有 $s$ 和所有其他策略 $\pi$ 的情况下 $v_{\pi^*}(s) \geq v_\pi(s)$

【贝尔曼最优公式（BOE）】

贝尔曼公式：
$v(s)=\quad \sum_a \pi(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v\left(s^{\prime}\right)\right), \quad \forall s \in \mathcal{S}$
贝尔曼最优公式：在 $\pi$ 前面加上了 $\max _\pi$ ，嵌套了一个优化问题
$\begin{aligned} v(s) & =\max _\pi \sum_a \pi(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v\left(s^{\prime}\right)\right), \quad \forall s \in \mathcal{S} \\ & =\max _\pi \sum_a \pi(a \mid s) q(s, a) \quad s \in \mathcal{S} \end{aligned}$

$\mid s, a), p\left(s^{\prime} \mid s, a\right)$ ：知道
$v\left(s^{\prime}\right)$ ：不知道需要计算的

矩阵向量形式：
$v=\max _\pi\left(r_\pi+\gamma P_\pi v\right)$

✨BOE公式右边最优问题：

$\begin{aligned} v(s) & =\max _\pi \sum_a \pi(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v\left(s^{\prime}\right)\right), \quad \forall s \in \mathcal{S} \\ & =\max _\pi \sum_a \pi(a \mid s) q(s, a) \end{aligned}$

求解：假设已知 $q_1, q_2, q_3, \in \mathbb{R}$ ，寻找 $c_1^*, c_2^*, c_3^*$ 计算：
$max _{c_1, c_2, c_3} c_1 q_1+c_2 q_2+c_3 q_3$

$c_1+c_2+c_3=1$ ，且 $c_1, c_2, c_3 \geq 0$ （对应概率）

假设 $q_3 \geq q_1, q_2$ （ $q_3$ return 最大），则最优解为 $c_3^*=1$ , 并且 $c_1^*=c_2^*=0$

直观解释：当 $q_3$ 最大则应该将权重都放到 $q_3$ 上，总的和最大
数学上解释： $q_3=\left(c_1+c_2+c_3\right) q_3=c_1 q_3+c_2 q_3+c_3 q_3 \geq c_1 q_1+c_2 q_2+c_3 q_3$

所以由于 $\sum_a \pi(a \mid s)=1$ ，就得到如下等式，其中 $a^*=\arg \max _a q(s, a)$ .：
$\max _\pi \sum_a \pi(a \mid s) q(s, a)=\max _{a \in \mathcal{A}(s)} q(s, a)$

$\pi(a \mid s)= \begin{cases}1 & a=a^* \\ 0 & a \neq a^*\end{cases}$

✨贝尔曼最优公式重写：

$f(v):=\max _\pi\left(r_\pi+\gamma P_\pi v\right)$

于是贝尔曼最优公式转变为： $v = f (v)$
$[f(v)]_s=\max _\pi \sum_a \pi(a \mid s) q(s, a), \quad s \in \mathcal{S}$

✨压缩映射定理（巴纳赫不动点定理）：

【概念】

Fixed point（不动点）： $\in X$ 是 $f$ 一个不动点，有一个函数 $\rightarrow X$ 有： $f (x) = x$
Contraction mapping（收缩映射）： $f$ 是个函数

$\left\|f\left(x_1\right)-f\left(x_2\right)\right\| \leq \gamma\left\|x_1-x_2\right\|$
- $\gamma \in(0,1)$
- $\|\cdot\|$ ：可以为任何向量范围

【例子1】

$\in \mathbb{R} .$

$x = 0$ ：是一个不动点
$f (x)$ ：也是一个收缩映射， $\left\|0.5 x_1-0.5 x_2\right\|=0.5\left\|x_1-x_2\right\| \leq \gamma\left\|x_1-x_2\right\|$ 对于 $\gamma \in[0.5,1)$

【例子2（向量形式）】

$\text {, where } x \in \mathbb{R}^n, A \in \mathbb{R}^{n \times n} \text { and }\|A\| \leq \gamma<1 \text {. }$

$x = 0$ ：也是一个不动点 $0 = A 0$
$f (x)$ ：也是一个收缩映射， $\left\|A x_1-A x_2\right\|=\left\|A\left(x_1-x_2\right)\right\| \leq\|A\|\left\|x_1-x_2\right\| \leq \gamma\left\|x_1-x_2\right\|$

【压缩映射定理】

对于等式 $x = f (x)$ ，如果他是一个Contraction mapping

存在：存在固定点 $f\left(x^*\right)=x^*$
唯一：这个固定的唯一存在
计算方式：序列 $\left\{x_k\right\}$ 使用式子 $x_{k+1}=f\left(x_k\right)$ ，当 $\rightarrow \infty$ 时候 $x_k \rightarrow x^*$

✨贝尔曼最优公式解：

由于贝尔曼最优公式属于一个Contraction mapping，所以可以使用Contraction mapping theorem进行计算。
$v_{k+1}=f\left(v_k\right)=\max _\pi\left(r_\pi+\gamma P_\pi v_k\right)$

$\begin{aligned} v_{k+1}(s) & =\max _\pi \sum_a \pi(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right) \\ & =\max _\pi \sum_a \pi(a \mid s) q_k(s, a) \\ & =\max _a q_k(s, a) \end{aligned}$

【过程总结(值迭代算法)】

首先对某个状态s，有个估计 $v_k(s)$
对于任意的action， $\in \mathcal{A}(s)$ ，计算
$q_k(s, a)=\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)$
计算最好的策略 $\pi_{k+1}$ ，其中 $a_k^*(s)=\arg \max _a q_k(s, a)$ .
$\pi_{k+1}(a \mid s)=\left\{\begin{array}{cc} 1 & a=a_k^*(s) \\ 0 & a \neq a_k^*(s) \end{array}\right.$
$v_{k+1}(s)=\max _a q_k(s, a)$

✨贝尔曼最优公式解的最优性：

假设 $v^*$ 是贝尔曼最优公式的解， $\pi^*$ 是对于 $v^*$ 的最优策略
$\begin{aligned} &v^*=\max _\pi\left(r_\pi+\gamma P_\pi v^*\right)\\ &\pi^*=\arg \max _\pi\left(r_\pi+\gamma P_\pi v^*\right)\\ &v^*=r_{\pi^*}+\gamma P_{\pi^*} v^* \end{aligned}$
$\pi^*$ ：
$\pi^*(a \mid s)= \begin{cases}1 & a=a^*(s) \\ 0 & a \neq a^*(s)\end{cases}$

【分析最优策略】

在这里插入图片描述

用这些红色的量将这些黑的量求出来

奖励设计： $r$
模型： $p\left(s^{\prime} \mid s, a\right), p(r \mid s, a)$
$\gamma$ 设计： $\gamma$
$v\left(s^{\prime}\right), \pi(a \mid s)$ 求解的

✨ $\gamma$ 选择问题：

$\gamma$ 大远视， $\gamma$ 小近视

在这里插入图片描述

✨ $r$ 选择问题：

在这里插入图片描述

问题： $\rightarrow a r+b ?$ 会不会有所改变
$r_{\text {boundary }}=r_{\text {forbidden }}=-1, \quad r_{\text {target }}=1, \quad r_{\text {otherstep }}=0$

$r_{\text {boundary }}=r_{\text {forbidden }}=0, \quad r_{\text {target }}=2, \quad r_{\text {otherstep }}=1$

回答：不会有改变，主要在于action value的相对值而不是绝对值

✨无意义的绕道：

在这里插入图片描述

问题：因为从一个到另外一个白格子不会有惩罚所以会不会有无意义的绕道问题？

回答：不会，因为到达中点慢了获得的奖励就少了

Policy $(\mathrm{a}):$ return $=1+\gamma 1+\gamma^2 1+\cdots=1 /(1-\gamma)=10$
Policy $(b) :$ return $=0+\gamma 0+\gamma^2 1+\gamma^3 1+\cdots=\gamma^2 /(1-\gamma)=8.1$

我们常常想的是每走一步无用的路就给个惩罚，但是同样如果不给惩罚它自己到达终点慢了那么得到的终点的奖励也就少了他就会自己找进路走，所里两者是等价的

♚℡灬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习的数学原理】第三课：贝尔曼最优公式

state value能够用来衡量一个策略是好还是不好，如果满足下面式子，则表明π1\pi_1π1比π2\pi_2π2好vπ1s≥vπ2sfor alls∈Svπ1s≥vπ2sfor alls∈S一个策略π∗\pi^*π∗是最优的：对于所有sss和所有其他策略π\piπ的情况下vπ∗s≥vπsvπ∗s≥vπs首先对某个状态s，有个估计vksv_k(s)v。
复制链接

扫一扫