无限阶段平稳马尔科夫过程的求解算法：策略迭代与值迭代

心态与习惯

已于 2024-08-15 17:04:46 修改

阅读量1.1k

点赞数

分类专栏：数学优化文章标签：马尔科夫策略迭代值迭代 markov 平稳过程

于 2021-08-27 14:29:14 首次发布

本文链接：https://blog.csdn.net/robert_chen1988/article/details/119936604

版权

数学优化专栏收录该内容

137 篇文章 198 订阅

订阅专栏

本文介绍了无限阶段平稳马尔科夫决策过程的基础知识，包括值迭代和策略迭代两种优化方法。值迭代通过不断迭代更新状态值函数来寻找最优决策，而策略迭代则通过求解平稳方程并更新策略来逼近最优策略。两种方法在决策优化中各有应用，适用于解决具有稳定状态转移和回报的复杂问题。

摘要由CSDN通过智能技术生成

无限阶段的马尔科夫决策过程，相关论文一般比较难，初步总结一下知识点。

若无限阶段的马尔科夫过程为平稳的，那么各阶段的状态转移概率与回报函数都是相同的，这样马尔科夫过程最终会达到一个平稳的状态。（在库存问题中，平稳过程意味着各阶段的随机需求函数相同，收益与成本参数也相同）

按照决策目标，可以分为折扣模型与平均模型。

1. 折扣模型

假设一个马尔科夫过程的最优收益函数为：

$V_{n+1}(s)=\max_{a}\left\{\sum_{s'}P(s'|s,a)\left[(R(s'|s,a)+\beta V_n(s')\right]\right\}\tag{1}$

其中， $s$ 表示第 $n + 1$ 阶段的当前状态， $a$ 表示第 $n + 1$ 阶段的决策， $R (s^{'} ∣ s, a)$ 表示在当前状态为 $s$ ，决策为 $a$ ，转移到状态 $s^{'}$ 时的回报函数， $\beta$ 为折扣因子。而 $P (s^{'} ∣ s, a)$ 为转移概率函数。

最大化这个最优收益函数的问题就是折扣模型。若状态和行动的集合都是有限的，一定存在一个最优的平稳策略。

一般有两种求解方法：值迭代（Value iteration）与策略迭代（Policy iteration）。

（策略迭代似乎是最容易理解最常用的）

1.1 策略迭代

step 1: $n = 0$ ，任取一个初始策略 $\bm f_0$ (相当于 a 的值有初始值，各阶段的决策组合为一个策略)。
step 2: 对于每个状态 $s$ ，给定的策略 $f_n$ ，都有一个平稳方程：
$\sum_{s'}P(s'|s,a)\left[(R(s'|s,a)+\beta V_n(s')\right]=V_n(s)$
组合成一个方程组，可以求解每个 $V_n(s)$ 的值。
step 3: 将每个 $V_n(s)$ 的值代入表达式 (1) 中，可以得到一个新的策略 $\bm f_{n+1}$ .
step 4: 若 $\bm f_{n+1}= \bm f_{n}$ ，停止， $\bm f_{n+1}$ 就是最优策略；否则，令 $n = n + 1$ ，返回 step 2 继续迭代。[^1]

《实用马尔可夫决策过程》书中3.4章节的一个例子：

状态空间 $S={1, 2}$ ，在状态 1 和 2 的可用行动集 $A(1)=A(2)={1, 2}$ ，折扣因子 $\beta=0.9$ . 相应的报酬函数和转移概率见下表。

| 状态|行动 | | |
|--|--|--|--|

未完待续。

1.2 值迭代

值迭代的算法步骤为：

step 1: $n = 0$ ，给定的 $\epsilon>0$ ，对于 $s$ 的所有可能状态，任意取值 $V_0(s)$ .
step 2: 将所有的 $V_n(s)$ 代入到表达式 (1) 中，得到所有的 $V_{n+1}(s)$ .
step 3: 所有的 $V_n(s)$ 写成向量形式 $\bm V_n$ ，所有的 $V_{n+1}(s)$ 写成向量形式 $\bm V_{n+1}$ ，若
$||\bm V_{n+1}-\bm V_{n}||<\frac{\epsilon(1-\beta)}{2\beta}$
进入 step 4，否则令 $n = n + 1$ ，返回 step 2 继续迭代.
step 4: 对于每个状态 $s$ ，此时表达式 (1) 中求得的 $a$ 就是对应的最优决策.