ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem

最新推荐文章于 2023-10-09 15:39:50 发布

Stan Fu

最新推荐文章于 2023-10-09 15:39:50 发布

阅读量1.4k

点赞数 1

分类专栏：近似动态规划和强化学习 - ADP&RL

本文链接：https://blog.csdn.net/qq_37266917/article/details/121434348

版权

算法神经网络强化学习动态规划

近似动态规划和强化学习 - ADP&RL 专栏收录该内容

11 篇文章 30 订阅

订阅专栏

Stochastic Infinite Horizon Problem

3.Stochastic Infinite Horizon Problem

3.Stochastic Infinite Horizon Problem

尽管有限范围问题的构造基本上是现实的，但由于维数的诅咒（curse of dimensionality），在大规模的实际问题中，它可能仍然不切实际。具体来说，当范围巨大时，系统方程模型中的阶段性系统函数 $f_{k}$ ，以及每个阶段的成本函数 $g_{k}$ 要么过于复杂，无法建模，要么存储量太大。即使问题的范围确实是有限的，例如围棋游戏，终端状态也很难被确定。处理这些问题的一个简单的办法是简单地让终端不被指定和开放，也就是说，让范围 $N\rightarrow\infty$ 。有了这样一个假设，阶段信息就变得不重要了。因此，给定状态空间 $\mathcal{X}$ 、动作空间 $\mathcal{U}$ 和扰动空间 $\mathcal{W}$ 都是与阶段无关的，我们用系统方程构造一个具有无限范围的离散时间动态系统为

$x_{k+1}=f\left(x_{k}, u_{k}, w_{k}\right), \quad \text { for } k=0,1, \ldots, \infty \tag{3.1}$

对于 $x_{k} \in \mathcal{X}, u_{k} \in \mathcal{U}$ , 和 $w_{k}$ 有与其阶段无关(stage-independent)的标量成本函数 $g\left(x_{k}, u_{k}, w_{k}\right)$ 。很明显，公式（1.5）中定义的成本函数在无终端状态的情况下不再可行，因为总的成本函数一般都是无界的。为了应对这种情况，我们引入了一个折扣系数 $\gamma\in(0,1)$ ，这样在循环周期中得到的奖励就会被几何序列 $\left\{1, \gamma, \gamma^{2}, \gamma^{3}, \ldots,\right\}$ 度量。也就是说，我们定义了 $x$ 状态下的总成本函数，即 $\mathcal{X}$ 的无限行动序列 $\mu:=\left\{u_{0}, u_{1}, \ldots\right\}$ ，其中 $u_{k} \in \mathcal{U}$ 作为
$J^{\mu}(x):=\lim _{N \rightarrow \infty} \mathbb{E}_{p(w)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, u_{k}, w_{k}\right) \mid x_{0}=x, x_{k+1}=f\left(x_{k}, u_{k}, w_{k}\right)\right]\tag{3.2}$

显然，无限范围的SDM问题的目标可以表述为找到一个无限范围的行动序列 $\mu$ ，使任意状态 $\in \mathcal{X}$ 的总成本函数最小。

这里采用了MDP模型来进一步发展DP和RL的统一理论和算法。我们对具有无限范围的MDP模型定义如下。

定义3.1 无限范围的马尔可夫决策过程 (Markov decision process with infinite horizon)

一个马尔可夫决策过程被定义为 $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ 的一个元组，其中

$\mathcal{X}$ 是一个有限的状态集。
$\mathcal{U}$ 是一个有限的行动集。
$p\left(x_{k+1} \mid x_{k}, u_{k}\right)$ 是在状态 $x_{k}$ 下行动 $u_{k}$ 导致状态 $x_{k+1}$ 的过渡概率。
$g\left(x_{k}, u_{k}, x_{k+1}\right)$ 是定义在过渡元组 $\left(x_{k}, u_{k}, x_{k+1}\right)$ 上的成本。
$\gamma \in(0,1)$ 是折扣系数

然后，可以定义MDP方面的无限期的SDM问题。

定义3.2 无限范围的SDM (SDM with infinite horizon)

如定义3.1所示，给定了一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，无限范围SDM问题旨在为所有 $x\in \mathcal{X}$ 找到一个无限的行动序列 $\mu:=\left[u_{0}, u_{1}, \ldots\right]$ ，且 $u_{k} \in \mathcal{U}$ 对于所有 $\ldots, \infty$ ，因此，以下最小化问题得到解决

$\min _{u_{0}, u_{1}, \ldots,} \lim _{N \rightarrow \infty} \mathbb{E}_{p_{h}(\chi, \mu)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, u_{k}, x_{k+1}\right) \mid x_{0}=x\right]\tag{3.3}$

通过对符号的轻微滥用，在本章的其余部分，我们用 $J^{\mu}$ 表示MDP模型在状态 $x\in\mathcal{X}$ 时的总成本函数，用于无限的行动序列 $\mu:=\left\{u_{0}, u_{1}, \ldots\right\}$ ，其中 $u_{k}为 \in \mathcal{U}$ ，即，

$J^{\mu}(x):=\lim _{N \rightarrow \infty} \mathbb{E}_{p_{h}(\chi, \mu)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, u_{k}, x_{k+1}\right) \mid x_{0}=x\right]\tag{3.4}$

很容易看出，所有的总成本函数都是有界的，因此是可以比较的。

Corollary 3.1 总成本函数的有界性 (Boundedness of the total cost function)

假设成本函数对于所有 $\left(x, u, x^{\prime}\right) \in \mathcal{X} \times \mathcal{U} \times \mathcal{X}$ 是有界的

$\left|g\left(x, u, x^{\prime}\right)\right| \leq c<\infty\tag{3.5}$

那么，在 $E q . (3.2)$ 中定义的任何状态 $\in \mathcal{X}$ 的总成本函数，对于任何无限行动序列 $\mu$ 是有界的，即,

$\left|J^{\mu}(x)\right| \leq \frac{c}{1-\gamma}\tag{3.6}$

Proof.
易得，

$\begin{aligned} \left|J^{\mu}(x)\right| &=\lim _{N \rightarrow \infty} \mathbb{E}_{p_{h}(\chi, \mu)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, u_{k}, x_{k+1}\right) \mid x_{0}=x\right] \\ & \leq \lim _{N \rightarrow \infty} \mathbb{E}_{p_{h}(\chi, \mu)}\left[\sum_{k=0}^{N} \gamma^{k} c\right] \\ &=\frac{c}{1-\gamma} \end{aligned}\tag{3.7}$

3.1 贝尔曼方程（Bellman Equations）

在本节中，我们将介绍DP中最重要的概念之一，即贝尔曼方程。

Proposition 3.1（无限范围的贝尔曼方程）(Bellman equation for infinite horizon)

给定一个无限的范围 $P{\mathcal{X}, \mathcal{U}, p, g, \gamma}$ 和一个固定的马尔可夫策略 $\pi$ ，在任何状态 $x\in \mathcal{X}$ 的总成本函数满足以下等式

$J^{\pi}(x)=\mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J^{\pi}\left(x^{\prime}\right)\right]\tag{3.8}$

其中 $x^{\prime} \in \mathcal{X}$ 是 $x$ 的后继状态，通过遵循 $\pi$ 的策略。

Proof.
让我们定义 $\chi_{k}:=\left\{x_{k}, x_{k+1}, \ldots\right\}$ 和 $\mu_{k}:=\left\{u_{k}, u_{k+1}, \ldots\right\}$ 对于所有 $\in \mathbb{N}$ . 我们从总成本函数的定义中简单推导出，即
$\begin{aligned} J^{\pi}(x) &:=\lim _{N \rightarrow \infty} \mathbb{E}_{p_{\pi}\left(\chi_{0}, \mu_{0}\right)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, \pi\left(x_{k}\right), x_{k+1}\right) \mid x_{0}=x\right] \\ &=\lim _{N \rightarrow \infty} \mathbb{E}_{p_{\pi}\left(x_{1} \mid x_{0}\right)}\left[g\left(x_{0}, \pi\left(x_{0}\right), x_{1}\right)+\right.\\ &\left.\quad+\gamma \mathbb{E}_{p_{\pi}\left(\chi_{1}, \mu_{1}\right)}\left[\sum_{k=1}^{N} \gamma^{k-1} g\left(x_{k}, \pi\left(x_{k}\right), x_{k+1}\right)\right] \mid x_{0}=x\right] \\ &=\mathbb{E}_{p_{\pi}\left(x_{1} \mid x_{0}\right)}\left[g\left(x_{0}, \pi\left(x_{0}\right), x_{1}\right)+\gamma J^{\pi}\left(x_{1}\right) \mid x_{0}=x, x_{1}=x^{\prime}\right] \end{aligned}\tag{3.9}$

不出意外的话，就最优总成本函数而言，一个类似的结果也适用于无限范围问题。

Lemma 3.1 固定马尔科夫策略下的最优成本函数

给定一个无限范围的MDP ${\mathcal{X}, \mathcal{U}, p, g, \gamma}$ 和一个平稳马尔科夫策略 $\pi$ ，对于任意一对 $\in \mathcal{X} \times \mathcal{U}$ ，我们有
$\min _{\pi} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{\pi}\left(x^{\prime}\right)\right]=\mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{*}\left(x^{\prime}\right)\right] \tag{3.10}$

平稳策略(stationary policy)， $π_t$ ，是一个不随时间变化的策略，即 $π_t=π,∀t≥0$ ，其中 $π$ 可以是一个函数， $π : S \to A$ （一个确定性的策略），或一个条件密度， $π (A ∣ S)$ （一个随机的策略）。非稳态策略是一种不处于稳态的策略。更确切地说， $π_i$ 可能不等于 $π_j$ ，因为 $i \neq = j \geq 0$ ， $i$ 和 $j$ 是两个不同的时间步骤。

在有些问题上，平稳最优策略是可以保证存在的。例如，在随机的（有一个概率密度来模拟环境的动态，即转换函数和成本函数）和离散时间的马尔可夫决策过程（MDP）的情况下，有有限的状态和行动，以及有约束的奖励，其中目标是长期的平均成本，一个平稳最佳策略是存在的。

Proof
证明方法与证明Lemma 2.1的技巧相同。首先，我们有
$\begin{aligned} \min _{\pi} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{\pi}\left(x^{\prime}\right)\right] & \leq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[\min _{\pi} J^{\pi}\left(x^{\prime}\right)\right] \\ &=\mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{*}\left(x^{\prime}\right)\right] \end{aligned} \tag{3.11}$

其中，由于左边的最小化，该不等式是显而易见的。同时，最优总成本函数的定义意味着以下不等式对任何总成本函数 $J^{\pi}$ 都是成立的
$\mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{\pi}\left(x^{\prime}\right)\right] \geq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{*}\left(x^{\prime}\right)\right] \tag{3.12}$

因此，我们有

$\min _{\pi} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{\pi}\left(x^{\prime}\right)\right] \geq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[J^{*}\left(x^{\prime}\right)\right] \tag{3.13}$

Proposition 3.2 无限范围的最优贝尔曼方程 (Optimal Bellman equation for infinite horizon)

给定一个无限期的MDP ${\mathcal{X}, \mathcal{U}, p, g, \gamma}$ ，最佳总成本函数 $J^{*}$ 满足以下等式
$J^{*}(x)=\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{*}\left(x^{\prime}\right)\right] \tag{3.14}$

Proof

回顾最佳总成本函数的定义，我们有

$\begin{aligned} J^{*}(x) &:=\min _{\pi} \lim _{N \rightarrow \infty} \mathbb{E}_{p_{\pi}(\chi, \mu)}\left[\sum_{k=0}^{N} \gamma^{k} g\left(x_{k}, u_{k}, x_{k+1}\right) \mid x_{0}=x\right] \\ &=\min _{\pi} \mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J^{\pi}\left(x^{\prime}\right)\right] \\ &=\min _{u} \min _{\pi} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{\pi}\left(x^{\prime}\right)\right] \\ &=\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{*}\left(x^{\prime}\right)\right] \end{aligned} \tag{3.15}$

其中，第一个等式来自贝尔曼方程，第二个等式是由于固定策略 $\pi$ 的分解，最后一个等式直接来自于Lemma 3.1。

尽管最优贝尔曼方程被证明是真实的，但像公式（2.19）那样对最优总成本函数进行逆向计算似乎已经不再适用。为了利用这一结果进行算法开发，我们需要首先构建一些抽象的概念，即贝尔曼算子。

3.2 贝尔曼算子（Bellman Operators）

如前所述，这部分只考虑只有有限状态的顺序决策问题。让我们用 $\mathcal{X}|$ 表示集合 $\mathcal{X}$ 的基数，即状态空间的大小。然后，我们可以把所有可接受状态下的总成本函数的评估表示为一个向量，即 $\in \mathbb{R}^{K}$ 。然后，我们可以将无限范围问题中的后向操作定义为有限维度向量上的算子。

定义 3.3 贝尔曼算子(Bellman operator)

给出一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，其相关的贝尔曼算子定义为
$\mathrm{T}_{\pi}: \mathbb{R}^{K} \rightarrow \mathbb{R}^{K}, \quad J \mapsto \mathrm{T}_{\pi}(J) \tag{3.16}$

与

$\mathrm{T}_{\pi}(J)(x):=\mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \tag{3.17}$

为了表述简单，我们用 $\mathrm{T}_{\pi} V$ 表示 $\mathrm{T}_{\pi}(J)$ ，因此用 $\mathrm{T}_{\pi} J(x)$ 表示 $\mathrm{T}_{\pi}(J) (x)$ 。同样地，我们可以定义最优贝尔曼算子，也称为动态编程算子。

定义 3.4 最优贝尔曼算子（Optimal Bellman operator）

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，其相关的最优贝尔曼算子定义为
$\mathrm{T}_{\mathfrak{g}}: \mathbb{R}^{K} \rightarrow \mathbb{R}^{K}, \quad J \mapsto \mathrm{T}_{\mathfrak{g}}(J) \tag{3.18}$

有

$\mathrm{T}_{\mathfrak{g}} J(x):=\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \tag{3.19}$
注意， $\mathrm{T}_{\mathfrak{g}}$ 中的下标是指算子中的贪婪动作或贪婪化，即最小化函数。简单地说，最优贝尔曼方程可以简单地表述为

$\mathrm{T}_{\mathfrak{g}} J^{*}=J^{*} \tag{3.20}$

这表明，最优总成本函数 $J^{*}$ 是最优贝尔曼方程的一个解。一个既具有理论意义又具有实际意义的自然问题是，这个解是否是唯一的。在下文中，我们首先介绍两个基本属性，它们是贝尔曼算子和最优贝尔曼算子所共有的。

Lemma 3.2 贝尔曼算子的单调性属性 (Monotonicity property of Bellman operators)

给定一个无限范围的MDP $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，让 $J^{\prime}\in \mathbb{R}^{K}$ 满足 $\leq J^{\prime}(x)$ 对于所有 $\in \mathcal{X}$ ，那么对于 $\ldots$ , 我们有
(1) $\left(\mathrm{T}_{\pi}^{k} J\right)(x) \leq\left(\mathrm{T}_{\pi}^{k} J^{\prime}\right)(x)$ , and

(2) $\left(\mathrm{T}_{\mathfrak{g}}^{k} J\right)(x) \leq\left(\mathrm{T}_{\mathfrak{g}}^{k} J^{\prime}\right)(x)$

Proof.
回顾 $\mathrm{T}_{\pi}$ 的定义，我们有
$\begin{aligned} \mathrm{T}_{\pi} J(x) &=\mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \\ & \leq \mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J^{\prime}\left(x^{\prime}\right)\right] \\ &=\mathrm{T}_{\pi} J^{\prime}(x) \end{aligned} \tag{3.21}$

其中不等式是通过假设 $\leq J^{\prime}(x)$ 对所有 $\in \mathcal{X}$ 都成立。那么结果(1)可以通过标准的归纳论证直接得出。

对于一个给定的 $\in \mathcal{X}$ 和任何动作 $\in \mathcal{U}$ ，可以直接看到

$\mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \leq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{\prime}\left(x^{\prime}\right)\right] \tag{3.22}$

从而得到两个完全有序的向量。可以直接得出结论

$\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \leq \min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{\prime}\left(x^{\prime}\right)\right] \tag{3.23}$

即，

$\mathrm{T}_{\mathfrak{g}} J(x) \leq \mathrm{T}_{\mathfrak{g}} J^{\prime}(x) \tag{3.24}$

注意，不等式两边的最小动作 $u$ 不一定是相同的。最后，结果(2)遵循与(1)相同的归纳方法。

Lemma 3.3 贝尔曼算子的恒定移位特性(Constant shift property of Bellman operators)

给定一个无限范围的MDP $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ , 令 $J^{\prime} \in \mathbb{R}^{K}$ 满足 $J^{\prime}$ 是 $J$ 的常数移位函数的构造，即 $J^{\prime}(x)=J(x)+c$ 对于所有 $x\in \mathcal{X}$ 。然后我们有 $\ldots$

(1) $\left(\mathrm{T}_{\pi}^{k} J^{\prime}\right)(x)=\left(\mathrm{T}_{\pi}^{k} J\right)(x)+\gamma^{k} c$ , and

(2) $\left(\mathrm{T}_{\mathfrak{g}}^{k} J^{\prime}\right)(x)=\left(\mathrm{T}_{\mathfrak{g}}^{k} J\right)(x)+\gamma^{k} c$

Proof.
回顾 $\mathrm{T}_{\pi}$ 的定义，我们有

$\begin{aligned} \mathrm{T}_{\pi} J^{\prime}(x) &=\mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J^{\prime}\left(x^{\prime}\right)\right] \\ &=\mathbb{E}_{p_{\pi}\left(x^{\prime} \mid x\right)}\left[g\left(x, \pi(x), x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right]+\gamma c \\ &=\mathrm{T}_{\pi} J(x)+\gamma c \end{aligned} \tag{3.25}$

也就是说， $\mathrm{T}_{\pi} J^{\prime}(x)$ 实际上是 $\mathrm{T}_{\pi} V$ 上的常数移位，常数为 $\gamma c$ .那么结果 $(1)$ 就直接归纳出来了。最后，结果 $(2)$ 的证明是直接的，因为

$\begin{aligned} \mathrm{T}_{\mathfrak{g}} J^{\prime}(x) &=\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J^{\prime}\left(x^{\prime}\right)\right] \\ &=\min _{u} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right]+\gamma c \\ &=\mathrm{T}_{\mathfrak{g}} J(x)+\gamma c \end{aligned} \tag{3.26}$

该结果直接由归纳法得出。

在提供了贝尔曼算子的这两个基本属性后，可以求解最佳贝尔曼方程解的唯一性。

Proposition 3.3 最佳总成本函数的唯一性 (Uniaueness of optimal total cost function)

给定一个无限范围的M D P $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，一个最优的总成本函数 $J^{*}\in \mathbb{R}^{K}$ 是最优贝尔曼方程的唯一解。

Proof.
给出一个任意的估计 $\in \mathbb{R}^{K}$ ，让 $c:=\left\|J-J^{*}\right\|_{\infty}$ ，其中 $\|\cdot\|_{\infty}$ 表示矢量的无穷范数。那么，对于任何 $x\in\mathcal{X}$ 我们有
$J^{*}(x)-c \leq J(x) \leq J^{*}(x)+c \tag{3.27}$

恒定移动属性意味着对于所有 $x\in \mathcal{X}$ 和一个自然数 $k$ 来说

$\mathrm{T}_{\mathfrak{g}}^{k} J^{*}(x)-\gamma^{k} c \leq\left(\mathrm{T}_{\mathfrak{g}}^{k} J\right)(x) \leq \mathrm{T}_{\mathfrak{g}}^{k} J^{*}(x)+\gamma^{k} c \tag{3.28}$

让 $k\rightarrow\infty$ ，挤压定理意味着
$\lim _{k \rightarrow \infty}\left(\mathrm{T}_{\mathfrak{g}}^{k} J\right)(x)=\mathrm{T}_{\mathfrak{g}} J^{*}(x)=J^{*}(x) \tag{3.29}$

此外，让我们假设存在另一个最佳贝尔曼方程的解 $\widetilde{J}$ ，即 $\tilde{J}=\mathrm{T}_{\mathrm{g}} \tilde{J}$ 。然后，对于 $k\rightarrow\infty$ 我们就可以得到 $\widetilde{J}=\mathrm{T}_{\mathrm{a}}^{k} \widetilde{J}$ 的三段式。然后，结果由公式（3.29）得出。

就最优贝尔曼算子而言，最优总成本函数的唯一性可进一步用于描述MDP问题的解决方案的最优性，即最优策略的特征。我们首先在任何平稳策略的总成本函数方面提出一个类似的结果，如下，无需证明。

Proposition 3.4 总成本函数的唯一性(Uniqueness of total cost function)

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ 和一个固定的策略 $\pi$ ，总成本函数 $J_{\pi} \in \mathbb{R}^{K}$ 是相关贝尔曼方程的唯一解，即,
$\mathrm{T}_{\pi} J_{\pi}=J_{\pi} \tag{3.30}$

Theorem 3.1 最佳化的必要和充分条件 (Necessary and sufficient conditions for the optimality)

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ 下，一个固定马尔科夫策略 $\pi$ 是最优的，当且仅当
$\mathrm{T}_{\pi} J^{*}=\mathrm{T}_{\mathfrak{g}} J^{*} \tag{3.31}$

Proof

我们首先证明 "如果 "部分。如果公式（3.31）中的方程成立，最佳贝尔曼方程导致

$\mathrm{T}_{\pi} J^{*}=J^{*} \tag{3.32}$

然后，根据命题3.3，我们得出 $J_{\pi}=J^{*}$ 的结论。

对于 "只有在 "的部分，我们首先假设 $\pi$ 的策略是最优的。那么我们有 $J_{\pi}=J^{*}$ ，因此

$\mathrm{T}_{\pi} J^{*}=\mathrm{T}_{\pi} J_{\pi}=J_{\pi}=J^{*}=\mathrm{T}_{\mathfrak{g}} J^{*} \tag{3.33}$

证明结束。

这意味着相对于最优总成本函数而言，由贪婪动作生成策略确实是最优的。然后，利用这个属性我们可以容易的得到从总成本函数生成策略的算法。

定义 3.5 贪婪诱导策略 (Greedily Induced Policy (GIP))

给定一个无限范围 $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ 让 $J\in \mathbb{R}^{K}$ 是一个总成本函数估计，关于 $J$ 的贪婪诱导策略，用 $\pi_{\mathfrak{g}}(J)$ 表示，定义如下
$\pi_{\mathfrak{g}}(J)(x) \in \underset{u \in \mathcal{U}}{\operatorname{argmin}} \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right] \tag{3.34}$
具体来说，我们使用以下符号来表示GIP的集合

$\pi_{\mathfrak{g}}(J) \in\left\{\pi \in \mathfrak{P}_{d m} \mid \mathrm{T}_{\pi} J=\mathrm{T}_{\mathfrak{g}} J\right\} \tag{3.35}$

3.3 价值迭代算法（The Value Iteration (VI) Algorithm）

正如公式（3.29）所提示的，构建一个迭代最优贝尔曼算子的算法是很简单的，也就是算法1中的Value Iteration $(V I)$ 算法。其收敛特性可以很容易地总结为以下结果。
在这里插入图片描述

Proposition 3.5 VI算法的收敛性 (Convergence of the VI algorithm)

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ 对于所有有界的成本函数 $\in \mathbb{R}^{K}$ ,对于 $\in \mathcal{X}$

$J^{*}(x)=\lim _{k \rightarrow \infty}\left(\mathrm{T}_{\mathfrak{g}}^{k} J\right)(x) \tag{3.36}$

显然，VI算法保证在其极限时收敛到最佳总成本函数。不过，这样的声明太弱了，在实际应用中是没有用的。在实践中，这种性质肯定是不必要的，也是不可能的，因为今天的计算机只有有限的机器精度。因此，一个重要的问题当然是关于VI算法在有限精度下的收敛速度。为了回答这个问题，我们需要从贝尔曼算子的恒定位移和单调性中入手来求解收敛速度。

Proposition 3.6 贝尔曼算子的收缩特性 (Contraction Property of Bellman operators)

给定一个无限范围 MDP $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ , 那么，贝尔曼算子 $\mathrm{T}_{\pi}$ 和最优贝尔曼算子 $\mathrm{T}_{\mathfrak{g}}$ 都是相对于无穷范数的 $\gamma$ 收缩映射，即给定 $J^{\prime} \in \mathbb{R}^{K}$ ，以下两个不等式成立

$\left\|\mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty} \leq \gamma\left\|J-J^{\prime}\right\|_{\infty} \tag{3.37}$

和

$\left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\infty} \leq \gamma\left\|J-J^{\prime}\right\|_{\infty} \tag{3.38}$

Proof.
令 $c:=\left\|J-J^{\prime}\right\|_{\infty}$ 。然后对于所有 $\in \mathcal{X}$ , 我们有
$\leq J^{\prime}(x) \leq J(x)+c \tag{3.39}$

通过应用单调性和最佳贝尔曼算子的恒定位移性，对于所有 $\in \mathcal{X}$ ，有
$\mathrm{T}_{\mathfrak{g}} J(x)-\gamma c \leq \mathrm{T}_{\mathfrak{g}} J^{\prime}(x) \leq \mathrm{T}_{\mathfrak{g}} J(x)+\gamma c \tag{3.40}$

作为结果，我们有

$\left\|\mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty} \leq \gamma c=\gamma\left\|J-J^{\prime}\right\|_{\infty} \tag{3.41}$
同样的论证适用于贝尔曼算子 $\mathrm{T}_{\pi}$ 。

Lemma 3.4 成本函数的有界性

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ,让 $J^{*} \in \mathbb{R}^K$ 是最佳总成本函数， $\in \mathbb{R}^K$ 是 $J^{*}$ 的估计值，则以下不等式成立

$\left\|J-J^{*}\right\|_{\infty} \leq \frac{1}{1-\gamma}\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty} \tag{3.42}$

Proof
回顾一下无穷范数的三角属性和 $\mathrm{T}_{\mathfrak{g}}$ 的收缩属性，我们有
$\begin{aligned} \left\|J-J^{*}\right\|_{\infty} &=\left\|J-\mathrm{T}_{\mathfrak{g}} J+\mathrm{T}_{\mathfrak{g}} J-J^{*}\right\|_{\infty} \\ & \leq\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty}+\left\|\mathrm{T}_{\mathfrak{g}} J-J^{*}\right\|_{\infty} \\ & \leq\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty}+\gamma\left\|J-J^{*}\right\|_{\infty} \end{aligned} \tag{3.43}$
这直接产生了公式（3.41）中的不等式。

公式（3.41）中的不等式意味着任意 $J$ 对最优总成本函数 $J^{*}$ 的随机误差被估计 $J$ 与最优总成本函数 $J^{*}$ 之间的初始差值所有限约束。

Proposition 3.7 收敛速度

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ , 让 $J\in \mathbb{R}^{K}$ 是一个任意的总成本函数估计值， $\rho>0$ 是在接近最佳总成本函数 $J^{*}$ 方面所期望的精度，即
$\left\|J^{*}-\mathrm{T}_{\mathfrak{g}}^{k} J\right\|_{\infty} \leq \rho \tag{3.44}$

给定初始误差 $c:=\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty}$ 与 $\geq \rho$ , 有

$k=\left[\log _{\gamma} \frac{(1-\gamma) \rho}{c}\right] \tag{3.45}$

迭代后，达到了预期的精度。

Proof.
对于任意的 $k$ ，我们应用 $\mathrm{T}_{\mathfrak{g}}$ 的收缩特性，得到
$\left\|\mathrm{T}_{\mathfrak{g}}^{k} V-J^{*}\right\|_{\infty} \leq \gamma^{k}\left\|J-J^{*}\right\|_{\infty} \tag{3.}$

通过Lemma 3.5 的定理可以得出

$\left\|\mathrm{T}_{\mathfrak{g}}^{k} J-J^{*}\right\|_{\infty} \leq \frac{\gamma^{k}}{1-\gamma}\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty} \tag{3.46}$

然后，我们可以简单地看一下下面的约束条件
$\frac{\gamma^{k}}{1-\gamma}\left\|J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty} \leq \rho \tag{3.47}$
等价地，我们有

$\gamma^{k} \leq \frac{(1-\gamma) \rho}{c} \tag{3.48}$

由于折扣系数 $\gamma<1$ ，取以 $\gamma$ 为基数的对数，可得

$\geq \log _{\gamma} \frac{(1-\gamma) \rho}{c} \tag{3.49}$

3.4 线性规划方法 (Linear programming methods)

从贝尔曼算子的单调性属性引出的另一个有趣的属性如下。

Corollary 3.2

给定一个无限范围的 M D P $\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ , 其中 $\in \mathbb{R}^{K}$ , 然后我们有
(1) 如果有 $\mathrm{T}_{\pi} J \leq J$ , 然后对于任意的 $\in \mathbb{N}$ , $\mathrm{T}_{\pi}^{k} J \leq J$ , 与 $J^{\pi} \leq J$ ;

(2) 如果有 $\mathrm{T}_{\mathfrak{g}} J \leq J$ , 然后对于任意的 $\in \mathbb{N}$ ， $\mathrm{T}_{\mathfrak{g}}^{k} J \leq J$ , 与 $J^{*} \leq J$ .

Proof.
由于与（1）的相似性，我们只证明结果（2）。回顾一下最佳贝尔曼算子 $\mathrm{T}_{\mathfrak{g}}$ 的单调性属性，就像在Lemma 3.2中一样，将 $\mathrm{T}_{\mathfrak{g}}$ 反复对两边进行 $k - 1$ 的应用，得到以下的不等式序列
$\mathrm{T}_{\mathfrak{g}}^{k} J \leq \mathrm{T}_{\mathfrak{g}}^{k-1} J \leq \ldots \leq \mathrm{T}_{\mathfrak{g}} J \leq J \tag{3.50}$

直到 $\lim _{k \rightarrow \infty} \mathrm{T}_{\mathfrak{g}}^{k} J=J^{*}$ , 我们得到结果 $J^{*} \leq J$ .

这一推论表明，最优价值函数 $J^{*}$ 是满足不等式的最小值，即在以下集合内的最小值
$\hat{J}^{*}:=\left\{J \in \mathbb{R}^{K} \mid \mathrm{T}_{\mathfrak{g}} J \leq J\right\} . \tag{3.51}$
因此，最优价值函数 $J^{*}$ 是以下约束性优化问题的全局最小值
$\min _{J \in \mathbb{R}^{K}} \sum_{x \in \mathcal{X}} J(x), \quad \text { subject to } \quad \mathrm{T}_{\mathfrak{g}} J \leq J . \tag{3.52}$
显然，这是一个非线性优化，更糟糕的是，在每个约束条件下，都有一个最小化问题需要解决。通过这样的事实，集合 $\mathfrak{J}^{*}$ 只是以下有序值函数的一个子集
$\mathfrak{J}:=\left\{J \in \mathbb{R}^{K} \mid \mathrm{T}_{\pi} J \leq J, \pi \in \mathfrak{P}_{d m}\right\}, \tag{3.53}$
即， $\mathfrak{J}^* \subset \mathfrak{J}$ 。回顾最佳价值函数的定义， $J^{*}$ 是满足线性约束的最小价值函数，我们可以将问题放宽为以下形式
$\min _{J \in \mathbb{R}^{K}} \sum_{x \in \mathcal{X}} J(x), \quad \text { subject to } \quad \mathrm{T}_{\pi} J \leq J, \forall \pi \in \mathfrak{P}_{d m} . \tag{3.54}$
更具体地说，上述问题可以改写如下
$\begin{aligned} \min _{J \in \mathbb{R}^{K}} & \sum_{x \in \mathcal{X}} J(x) \\ \text { subject to } & J(x) \geq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right], \quad \forall x, x^{\prime} \in \mathcal{X}, u \in \mathcal{U} . \end{aligned} \tag{3.55}$

Theorem 3.2 线性规划的解决 (Solution of Linear Programming)

给定一个无限范围 $P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}$ ，则最优价值函数 $J^{*}$ 是Eq $(3.55)$ 中定义的线性规划问题的唯一解。

Proof.
设 $J^{*}$ 为最优价值函数，当然满足不等式约束，并假设 $J\in \mathbb{R}^{K}$ 为线性规划问题（3.55）的全局最小。根据线性规划的事实，所有局部最小值也是全局最小值。假设存在一个状态 $x^{\prime}$ ，使 $J^{*}\left(x^{\prime}\right)<J\left(x^{\prime}\right)$ 。那么，我们有
$\begin{aligned} \sum_{x \in \mathcal{X}} J^{*}(x) &=J^{*}\left(x^{\prime}\right)+\sum_{x \neq x^{\prime}} J^{*}(x) \\ &<J\left(x^{\prime}\right)+\sum_{x \neq x^{\prime}} J^{*}(x) . \end{aligned} \tag{3.56}$
通过与假设 $J$ 是公式（3.55）中给出的线性规划问题的全局最小值相矛盾，该结果成立。

Remark 3.1.
显然，这个定理提供了一种计算最优价值函数的替代方法。然而，这样的结构不能保证有效的算法。幸运的是，根据线性规划的理论，如果变量，即我们设定的价值函数，被限制为非负值。
$\begin{aligned} \min _{J \in \mathbb{R}^{K}} & \sum_{x \in \mathcal{X}} J(x) \\ \text { subject to } & J(x) \geq 0 \\ & J(x) \geq \mathbb{E}_{p\left(x^{\prime} \mid x, u\right)}\left[g\left(x, u, x^{\prime}\right)+\gamma J\left(x^{\prime}\right)\right], \quad \forall x, x^{\prime} \in \mathcal{X}, u \in \mathcal{U}, \end{aligned} \tag{3.57}$

3.5 实例： Infinite horizon example: E-Bus

Consider a group of electric buses running round trips 24 hours a day. The task is to identify optimal operating actions at different battery states. The battery’s endurance and charging speed gradually decrease with the increase of battery life. Hence, for different buses, they have different transition probshilities between battery states. The following figure illustrates the state transitions between different states.

Three states: $H$ - high battery, $L$ - low battery, $E$ - empty battery
Two actions: $S$ - continue to serve, $C$ - charge
Numbers on the edges refer to transition probabilities. $\alpha=0.5, \beta=0.3, \epsilon=0.7$
Discount factor $\gamma=0.9$

We choose the number of unserviced passengers as the local costs:

In the high battery state, if it keeps the service, the unserviced passenger number is 0 .
In the low battery stats, if it keeps the service, the unserviced pessenger number is 2 . (We could imagine some of pessengers might give up getting on the bus due to low battery status.)
In the low battery state, if it charges the battery, the unserviced passenger number is 10 . (Since the charging time is relatively short.)
In the empty battery state, if it charges the battery, the unserviced pessenger number is 20 . (Since the charging time is longer.)
(1) Calculate one step of the Value Iteration (VI) algorithm on this problem, and estimate the largest number of iteration steps that the VI needs to reach a desired precision $\rho$ ? Let us initialise the cost as $J_{0}=0$ for three states, and the desired accuracy $\rho=0.1$
(2) Implement this VI algorithm in any programming language you like, run the VI algorithm, and identify the actual number of steps that is executed to reach the desired precision as in question (1).

import math
import matplotlib.pyplot as plt


# some constants:
gamma = 0.9
alpha = 0.5
beta = 0.3
epsilon = 0.7

# local costs:
gec = 20  # g(E,C)=20
ghs = 0  # g(H,S)=0
glc = 10  # g(L,C)=10
gls = 2  # g(L,S)=2


print("\n---------- Value Iteration ----------\n")
# Init total cost:
jh = jl = je = 0  # J(H)=J(L)=J(E)=0

jh_data = []
jl_data = []
je_data = []

# value iteration for 100 times
for k in range(1, 101):
    je_ = epsilon * (gec + gamma * jh) + (1-epsilon) * (gec + gamma * jl)
    jh_ = alpha * (ghs + gamma * jh) + (1-alpha) * (ghs + gamma * jl)
    jl_ = min(
        glc + gamma * jh, beta * (gls + gamma * jl) + (1 - beta) * (gls + gamma * je)  # Charge OR Service
    )

    # Q1: calculate the initial error and the number of convergence
    if k == 1:
        c = max(abs(jh - jh_), abs(jl - jl_), abs(je - je_))
        k = math.log(((1 - gamma) * 0.1 / c), gamma)
        print('After {} iterations the cost function will converge to the desired accuracy.\n'.format(math.ceil(k)))

    # Q2: update the cost function for each state
    jh_data.append(jh_)
    jl_data.append(je_)
    je_data.append(jl_)

    jh, je, jl = jh_, je_, jl_

    # output per 20 iterations
    if k % 20 == 0:
        print('Iter {}\t J(H)={:.3f}, J(L)={:.3f}, J(E)={:.3f}'.format(k, jh, jl, je))
    k += 1

# plot the results
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.set_xlabel('Total cost')
ax.set_ylabel('iteration k')
ax.plot(jh_data, marker='.', label='$J(H)$')
ax.plot(jl_data, marker='.', label='$J(L)$')
ax.plot(je_data, marker='.', label='$J(E)$')
ax.legend()
plt.show()

the outputs are

---------- Value Iteration ----------

After 73 iterations the cost function will converge to the desired accuracy.

Iter 20	 J(H)=26.622, J(L)=33.518, J(E)=45.380
Iter 40	 J(H)=30.498, J(L)=37.395, J(E)=49.257
Iter 60	 J(H)=30.969, J(L)=37.866, J(E)=49.728
Iter 80	 J(H)=31.027, J(L)=37.923, J(E)=49.785
Iter 100	 J(H)=31.034, J(L)=37.930, J(E)=49.792

在这里插入图片描述