迭代法求解贝尔曼期望方程的数学证明

leelee6591

已于 2022-06-02 16:33:42 修改

阅读量953

点赞数

分类专栏：强化学习文章标签：人工智能机器学习

于 2022-06-02 09:25:55 首次发布

本文链接：https://blog.csdn.net/leelee1996/article/details/125093868

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习的核心是用迭代法求解马尔可夫决策过程（MDP）的贝尔曼期望方程（Bellman Optimality Equation）：
$R_s + \gamma \sum\limits_{s' \in S}P_{ss'}V(s')$
一般来说，可从两个角度证明迭代法求解贝尔曼期望方程的正确性（本文依赖于<1>）：

1_泛函分析：压缩映射与巴拿赫不动点定理
2_数值分析：不动点迭代法及其收敛定理

参考资料：

如何证明迭代式策略评价、值迭代和策略迭代的收敛性？ https://zhuanlan.zhihu.com/p/39279611
强化学习中无处不在的贝尔曼最优性方程，背后的数学原理知多少？ https://blog.csdn.net/FnqTyr45/article/details/104889982
不动点迭代法及其收敛原理 https://wenku.baidu.com/view/48350321dd36a32d7375818e.html
压缩映射与巴拿赫不动点定理https://zhuanlan.zhihu.com/p/336255678

1 度量空间(Metric Space)

1.1 度量空间的概念

度量空间 $M ： < X, d >$ ，其中X是集合，d 是某种度量函数。度量空间是指在一个集合上的度量，度量则是定义了集合中任何两个元素之间的距离。例如，欧几里德空间是度量空间，其距离定义为欧几里德距离。一个度量 $d$ 必须满足以下四条性质：

单位性： $d (x, x) = 0$
非负性： $d (x, y) > 0$
对称性： $d (x, y) = d (y, x)$
三角不等式： $d (x, z) \leq d (x, y) + d (y, z)$

常见的度量函数 $d$ 有：

(1)范数metric： $d(x,y)=||x-y||_n,\quad n \geq 1$ , 其中 $c||_n$ 表示向量的 $n$ 范数, $||c||_n = (\sum\limits_{i} |c_i|^n)^{\frac{1}{n}}$

$n = 1$ 时，为绝对值距离，又叫曼哈顿距离，即 $d(x,y)=\sum\limits_{i}|x_i-y_i|$
$n = 2$ 时，为欧式距离
$n=\infty$ 时，为最大值距离，又叫切比雪夫距离，即 $\underset{i}{max}|x_i-y_i|$

(2)离散metric:
$\begin{cases} 0\ & if \ x=y \\ 1\ & otherwise \\ \end{cases}$

1.2 完备度量空间

如果由集合 $X$ 中元素组成的每个可能的柯西序列都收敛到集合 $X$ ，则度量空间 $< X, d >$ 是完备的。也就是说，由集合中的每个柯西序列的极限所对应元素也属于该集合，这也是为什么它被称为“完备”的原因。

**定义：**一个度量空间（metric space） $< X, d >$ 是完备的(或者说是柯西的<Cauchy的>)，当且仅当所有在 $X$ 中的Cauchy序列，都会收敛到 $X$ 中。

即，在完备的度量空间中，对于任意在 $X$ 中的点序列 $x_1, x_2, x_3, x_4,\dots \in X$ ，如果序列是Cauchy的，那么该序列收敛于 $X$ , 即 $\underset{n\rightarrow \infty}{lim}a_n \in X$ 。

换句话说，完备的metric space是没有缺失的点的。有一种直观的形容方法就是完备空间“没有孔”（内部不缺点），“不缺皮”（边界不缺点）。比如，对于有理数集合 $R$ ，用绝对值 $∣ . ∣$ 函数衡量两个有理数的距离，这是一个metric space，那么它是不是完备的呢？对于Cauchy序列：
$x_{n+1} = \begin{cases} 1, & n=1 \\ \frac{x_n}{2}+\frac{1}{x_n} & n>1 \\ \end{cases}$
这个序列其实是： ${1, 3/2, 17/12 … }$ 。解方程 $\frac{x}{2}+\frac{1}{x}$ , 得到 $\sqrt{2}$ 。可以看出这个序列中的值都是有理数，而且是Cauchy序列，收敛于 $x_n = \sqrt{2}$ 。因此这样一个有理数序列收敛的点不在集合 $R$ 中，因此我们认为有理数集合是有缺失的点的，不是一个完备的metric space。
完备的metric space这个概念非常的重要，很多时候我们很难证明一个序列是收敛的，但是比较容易证明它是Cauchy的，只要确认该Cauchy序列在完备的metric space中，即可直接得到收敛性。

2 压缩映射

2.1 映射：

两个集合之间的一种对应关系 $\rightarrow Y$ ，对 $X$ 中的每个元素 $x$ ， $Y$ 中都只有一个元素 $y$ 与之对应。分析：

宏观上，映射是集合到集合的关系
微观上，是俩个元素之间的对应的关系

2.2 压缩映射：

设 $< X, d >$ 是距离空间，映射 $\rightarrow X$ 。若存在一个常数 $\alpha \in [1,0)$ ，使得对任意 $\in X$ ，都有：
$\leq \alpha \cdot d(x,y)$
称 $T$ 为 $X$ 上的压缩映射。例如： $\frac {1}{2} x$ 。

分析：经过映射后，两点间距离更小。
问题：距离怎么定义？任取一种距离还是对于任何距离都成立？
答： $(X, d)$ 是完备的距离空间，则只要有一种 $d$ 度量函数即可。

2.3 举例解释

总结：集合，度量，压缩映射三者的关系：集合，度量，压缩映射的关系
例题：设 $[1,+\infty) \subset R^1$ ， $\rightarrow X$ ，定义： $\frac{x}{2} + \frac {1}{x}$ 。求证 $T$ 是压缩映射。

思路：选取一种合适的度量函数 $d$ ，目标是根据定义证明： $\leq \alpha \cdot d(x,y), \alpha \in [0,1)$

证明：对于任意 $\in X$ ，当 $d$ 为绝对值距离时：
$|\frac{x}{2} + \frac {1}{x} - (\frac{y}{2} + \frac {1}{y})|=|\frac{1}{2}-\frac{1}{xy}|\cdot |x-y|$
由于 $\in X = [1,+\infty) \Rightarrow 0<\frac{1}{xy}\leq 1$ ，

所以 $|\frac{1}{2}-\frac{1}{xy}|\leq \frac{1}{2}< \frac{2}{3}$ 。从而：
$\frac {2}{3} d(x,y)$

3 不动点定理

3.1 不动点的概念

已知函数 $f (x)$ ,假设存在 $x$ ,使得 $f (x) = x$ ,那么点 $(x, f (x))$ 就是函数 $f (x)$ 的一个不动点。

例如：已知函数 $f(x)=x^2-2x+2$ ，令 $f (x) = x$ ，则变形为 $x^2-3x+2=0$ ，则 $x = 1, 2$ 。所以点 $（ 1, 1 ）, （ 2, 2 ）$ 就是函数 $f (x)$ 的不动点。

3.2 不动点定理

设 $< X, d >$ 是完备的距离空间， $\rightarrow X$ 是压缩映射，则 $T$ 有唯一的不动点。

证明思路：由 $T$ 构造一个数列 ${x_n\}$ $\longrightarrow$ 证明 ${x_n\}$ 是柯西数列 $\longrightarrow$ 存在极限点 $x^{*}$ 且 $x^{*}\in X$ $\longrightarrow$ $ T(x)=x^{*}$ $\longrightarrow$ 证明 $x^{*}$ 唯一。
证明：
第一步：任取 $x_0 \in X$ ，构造数列： $x_1 = T(x_0)，x_2 = T(x_1) = T^2(x_0)，...，x_m = T(x_{m-1})= T^m(x_0)，...，x_n = T(x_{n-1}) = T^n(x_0)$ 。则：
$\begin{aligned} &d(x_{m+1},x_m) = d(T(x_m),T(x_{m-1})) \leq \alpha d(x_m,x_{m-1}) \\ &d(x_{m},x_{m-1}) = d(T(x_{m-1}),T(x_{m-2})) \leq \alpha d(x_{m-1},x_{m-2}) \\ &\cdots \ \cdots \\ &d(x_2,x_1) = d(T(x_1),T(x_0)) \leq \alpha d(x_1,x_0) \\ &\Longrightarrow d(x_{m+1},x_m) \leq \alpha^m d(x_1,x_0) \tag{1} \end{aligned}$
对于任意 $m < n$ ，重复应用三角不等式，

$d(x_m,x_n) \leq d(x_m,x_{m+1}) + d(x_{m+1},x_n)\leq d(x_m,x_{m+1}) + d(x_{m+1},x_{m+2}) + d(x_{m+2},x_{n})\leq d(x_m,x_{m+1}) +...+ d(x_{n-1},x_{n})$

代入 $(1)$ 式,得：

$d(x_m,x_n) \leq (\alpha^m + \alpha^{m+1}+ ...+\alpha^{n-1})d(x_1,x_0)=\alpha^m \frac{1-\alpha^{n-m}}{1-\alpha}d(x_1,x_0)\stackrel{m \rightarrow + \infty}{\longrightarrow}0$
即 ${x_n\}$ 是柯西数列。
而 $< X, d >$ 是完备的，所以 $\exists x^{*} \in X$ ，使得 $\underset {n \rightarrow \infty}{lim} x_n = x^{*} \qquad (2)$
第二步：由(2)式可得： $\underset {n \rightarrow \infty}{lim} x_{n-1} = x^{*}$

又由于 $T (x)$ 是连续函数，且 $x_n = T(x_{n-1})$ ，两边取极限：

$左边：\underset {n \rightarrow \infty}{lim} x_{n} = x^{*}$

$右边：\underset {n \rightarrow \infty}{lim} T(x_{n-1}) = T(\underset {n \rightarrow \infty}{lim}x_{n-1}) = T(x^{*})$

从而 $T(x^{*}) = x^{*}$ ， $x^{*}$ 是不动点。

4 MRP（马尔科夫奖励过程）中的贝尔曼期望方程

MRP中，假设状态集 $S = s_1,s_2,...,s_n$ ，贝尔曼期望方程（Bellman Equation）:
$R_{s} + \gamma \sum\limits_{s′\in{S}}P_{ss′}v(s′)$
可以写成如下矩阵的形式：
$\gamma Pv$
它表示：
$\begin{bmatrix}v(s_1) \\ \cdots \\ v(s_n) \end{bmatrix} = \begin{bmatrix} R_1 \\ \cdots \\ R_n \end{bmatrix} + \gamma \begin{bmatrix} P_{11} \cdots P_{1n} \\ \cdots \ \cdots \ \cdots \\ P_{n1} \cdots P_{nn}\end{bmatrix} \begin{bmatrix}v(s_1) \\ \cdots \\ v(s_n) \end{bmatrix}$
则映射函数为：
$\gamma Pv$

4.1 定义度量空间

对于状态集 $S = s_1,s_2,...,s_n$ ，我们定义状态值函数向量：
$\begin{bmatrix} v(s_1) \\ v(s_2) \\ ...\\ v(s_n) \end{bmatrix}$

该向量属于值函数空间 $V$ ，我们考虑 $V$ 是一个 $n$ 维全空间。定义该空间的度量是无穷范数，即：

$\underset{s \in S}{max}|u(s)-v(s)|$

由 $V$ 于是向量全空间，因此 $< V, d >$ 是一个完备的度量空间。

4.2 T(v)是压缩映射

$\begin{aligned} d(T(u),T(v)) &= ||(R+\gamma Pu) - (R+\gamma Pv)||_{\infty} \\ &=||\gamma P(u-v)||_{\infty} \\ &\leq ||\gamma P||u-v||_{\infty}||_{\infty} \\ &\leq \gamma ||u-v||_{\infty} = \gamma d(u,v) \end{aligned}$
根据压缩映射定理，我们可以直接得到如下的结论：