强化学习——贝尔曼最优方程

catcatcatcx

已于 2023-11-19 22:59:15 修改

阅读量366

点赞数 2

文章标签：算法学习

于 2023-11-08 21:42:31 首次发布

本文链接：https://blog.csdn.net/catcatcatcx/article/details/134292324

版权

本文介绍了强化学习中贝尔曼最优方程的概念，探讨了如何通过压缩映射定理求解该方程，以及最优策略的确定过程，强调了奖励(r)和折扣因子(γ)对策略选择的影响。

摘要由CSDN通过智能技术生成

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

贝尔曼最优方程

如何描述不同策略的优劣性？
什么是贝尔曼最优方程（BOE）？
如何求解贝尔曼最优方程？
什么因素会影响最优策略？
参考资料

文章脉络：贝尔曼最优方程实际上就是贝尔曼方程的特殊情况，特殊在策略不再是给定的，而是转化为一个最优化问题所需要求解的未知量，贝尔曼最优方程所涉及的函数实际上是一个压缩映射，压缩映射定理为贝尔曼最优方程解的存在性和唯一性提供理论支持，并由相应的迭代算法可以找到方程的解，可以证明找到的解 $v_{*}$ 以及伴生的贪婪策略 $\pi^{*}$ 具有最优性。

如何描述不同策略的优劣性？

描述不同策略的优劣性从对应策略的状态值函数出发：
在这里插入图片描述
根据上述描述方法我们可以得到最优策略 $\pi^{*}$ 对于其他任何策略 $\pi$ 以及任何状态 $s$ ，满足： $v_{\pi^{*}}(s)\ge v_{\pi}(s)$

什么是贝尔曼最优方程（BOE）？

开门见山，贝尔曼最优方程实际上就是贝尔曼方程的特殊情况，特殊在策略不再是给定的，而是转化为一个最优化问题所需要求解的未知量，贝尔曼最优方程长这样，：
在这里插入图片描述
向量形式的贝尔曼最优方程：

如何求解贝尔曼最优方程？

压缩映射定理

首先引入压缩映射定理
在这里插入图片描述 思路就是证明依据算法构造出的点列是一个收敛的柯西列。
1. 证明存在性

构造点列 ${x_{k}\}$ ，满足 $x_{k+1}=f(x_{k})$ ，由于 $f$ 是压缩映射（满足 $\forall x_{1},x_{2},\exist \gamma \in(0,1)，s.t. ||f(x_{1})-f(x_{2})||\leq\gamma||x_{1}-x_{2}||$ ），所以在这里插入图片描述
$\forall m\ge n$

显然 $x_{1}-x_{2}||$ 是有界的， $\frac{\gamma^{n}}{1-\gamma}$ 趋于0，易知依据算法构造的点列是一个柯西列， $x_{k+1}=f(x_{k})$ 两边取极限就有 $x^{*}=f(x^{*})$ ，我们要找的不动点其实就是点列 ${x_{k}\}$ 的极限值。（柯西列不一定是收敛的）
2. 证明唯一性
假设存在其他不动点 $x'\neq x^{*}，x'=f(x')$ ，那么有
在这里插入图片描述
因为 $\gamma\in(0,1)$ ，先不等式成立当且仅当 $x'-x^{*}||=0$ ，推出 $x'=x^{*}$ ，矛盾。

关于贝尔曼最优方程的函数是一个压缩映射

在这里插入图片描述

求解贝尔曼最优方程

根据压缩映射定理我们可以说明贝尔曼最优方程解的存在性和唯一性。
在这里插入图片描述
根据理论证明，并依据给出的迭代算法能找到解：

方程的解 $v_{*}$ 以及相应经过迭代得到的策略 $\pi^{*}$ 是否就是最优的呢？，下一节给出解答。

贝尔曼最优方程的解以及伴生策略的最优性

假定求出贝尔曼最优方程的解为 $v^{*}$ ,对应策略为 $\pi^{*}=\argmax_{\pi}(r_{\pi}+\gamma P_{\pi}v^{*})$ ，那么有
在这里插入图片描述
下面的定理将说明 $v^{*},\pi^{*}$ 具有最优性：

证明如下：

已经证明了 $\pi^{*}$ 具有最优性，那么 $\pi^{*}$ 长什么样呢？实际上在每一步策略迭代中，由于 $\sum_{a}\pi(a|s)=1$ ，自然在最优化问题当中应当选择在状态 $s$ 下动作值函数 $q^{*}(s,a)$ 最大的所对应的动作 $a$ ，因此这样得到的策略也被叫做贪婪策略（Greed Plicy，不给其他动作一点机会）。
在这里插入图片描述

什么因素会影响最优策略？

从BOE的表达式可以清晰地看到， $r,\gamma$ 都会影响最优策略。

在这里插入图片描述

参考资料

课程《强化学习的数学原理》赵世钰教授西湖大学

catcatcatcx

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习——贝尔曼最优方程

开门见山，贝尔曼最优方程长这样：向量形式的贝尔曼方程：回顾贝尔曼方程，我们知道策略π\piπ是给定的，而对于贝尔曼最优方程，里面还蕴含了一个优化问题，即也要求解满足方程的策略π\piπ，那么求解出的策略π\piπ与最优策略π∗\pi^{*}π∗有什么关系呢？
复制链接

扫一扫