自适应动态规划（五)-初值不为零的值迭代

最新推荐文章于 2024-06-05 10:48:20 发布

WanderingSIN

最新推荐文章于 2024-06-05 10:48:20 发布

阅读量1.2k

点赞数 4

分类专栏： ADP 优化算法强化学习文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/qq_34445388/article/details/109531906

版权

优化算法同时被 3 个专栏收录

6 篇文章 9 订阅

订阅专栏

ADP

5 篇文章 39 订阅

订阅专栏

强化学习

4 篇文章 2 订阅

订阅专栏

初值不为零的值迭代稳定性证明

定理一

问题描述

假设初值为任意半正定函数
$V_0(x_k)=\Psi(x_k)$
定义变量 $\underline{\gamma},\overline{\gamma},\underline{\delta}$ 和 $\overline{\delta}$ 变量如下：
$KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ 0<\underline{\…$
如果对于任意的 $x_k$ ，上述变量都满足下面
$\underline{\gamma} U(x_k,u_k)\leq J^*(F(x_k,u_k))\leq\overline{\gamma}U(x_k,u_k) \\ \underline{\delta}J^*(x_k)\leq V_0(x_k)\leq\overline{\delta}J^*(x_k)$
证明下面的式子成立
$(1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)\leq V_i(x_k)\leq(1+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{i}})J^*(x_k)$

证明

这个证明过程分为两步，左边和右边成立证明。

第一步证明左边成立：

用数学归纳法进行证明

一、
$\begin{aligned} V_1(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_0(x_{k+1})\} \\ &\geq \min_{u_k}\{U(x_k,u_k)+\underline{\delta}J^*(x_{k+1})\} \\ &\geq\min_{u_k}\{U(x_k,u_k)+\underline{\delta}J^*(x_{k+1})+\frac{\underline{\delta}-1}{1+\overline{\gamma}}(\overline{\gamma}U(x_k,u_k)-J^*(x_{k+1}))\} \\ &\geq \min_{u_k}\{(1+\overline{\gamma}\frac{\underline{\delta}-1}{1+\overline{\gamma}})U(x_k,u_k)+(\underline{\delta}-\frac{\underline{\delta}-1}{1+\overline{\gamma}})J^*(x_{k+1})\} ~~~~~~~~~(1)\\ &= (1+\overline{\gamma}\frac{\underline{\delta}-1}{1+\overline{\gamma}})\min_{u_k}\{U(x_k,u_k)+J^*(x_{k+1})\} ~~~~~~~~~~~(2) \\ &=(1+\overline{\gamma}\frac{\underline{\delta}-1}{1+\overline{\gamma}})J^*(x_k) \end{aligned}$
其中(1)由下式推导可得
$\begin{aligned} (1+\overline{\gamma}\frac{\underline{\delta}-1}{1+\overline{\gamma}})U(x_k,u_k)+(\underline{\delta}-\frac{\underline{\delta}-1}{1+\overline{\gamma}})J^*(x_{k+1})&=U(x_k,u_k)+\overline{\gamma}\frac{\underline{\delta}-1}{1+\overline{\gamma}}U(x_k,u_k)+\underline{\delta}J^*(x_{k+1})-\frac{\underline{\delta}-1}{1+\overline{\gamma}}J^*(x_{k+1}) \\ &=U(x_k,u_k)+\underline{\delta}J^*(x_{k+1})+\frac{\underline{\delta}-1}{1+\overline{\gamma}}(\overline{\gamma}U(x_k,u_k)-J^*(x_{k+1})) \\ &\leq U(x_k,u_k)+\underline{\delta}J^*(x_{k+1}) \end{aligned}$
上式中
$\frac{\underline{\delta}-1}{1+\overline{\gamma}}<0 \\ \overline{\gamma}U(x_k,u_k)-J^*(x_{k+1})>0$
其中（2）式可由下式推导可以得出
$\begin{aligned} \underline{\delta}-\frac{\underline{\delta}-1}{1+\overline{\gamma}}&=\frac{\underline{\delta}(1+\overline{\gamma})-\underline{\delta}+1}{1+\overline{\gamma}}=\frac{\underline{\delta}+\underline{\delta}\overline{\gamma}-\underline{\delta}+1}{1+\overline{\gamma}} \\ &=\frac{\underline{\delta}\overline{\gamma}+1+\overline{\gamma}-\overline{\gamma}}{1+\overline{\gamma}} =1+\frac{\underline{\delta}\overline{\gamma}-\overline{\gamma}}{1+\overline{\gamma}}=1+\frac{\underline{\delta}-1}{1+\overline{\gamma}^{-1}} \end{aligned}$
二、

假设结论对 $i=l-1,l=1,2,\cdots$ 都成立，则 $i = l$ 可得

由假设得
$V_{l-1}(x_k)\geq (1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_k)$

$\begin{aligned} V_{l}&=\min_{u_k}\{U(x_k,u_k)+V_{l-1}(x_{k+1})\} \\ &\geq \min_{u_k}\{U(x_k,u_k)+(1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_k)+\frac{\underline{\delta}-1}{(1+\overline{\gamma})(1+\overline{\gamma}^{-1})^{l-1}}(\overline{\gamma}U(x_k,u_k)-J^*(x_{k+1}))\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l-1}}-\frac{\underline{\delta}-1}{(1+\overline{\gamma})(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\underline{\delta}-1)(1+\overline{\gamma})-\underline{\delta}+1}{(1+\overline{\gamma})(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\underline{\delta}-1)\overline{\gamma}}{(1+\overline{\gamma})(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\underline{\delta}-1)}{(1+\overline{\gamma}^{-1})^{l}})J^*(x_{k+1})\} \\ &=(1+\frac{(\underline{\delta}-1)}{(1+\overline{\gamma}^{-1})^{l}})\min_{u_k}\{U(x_k,u_k)++J^*(x_{k+1})\} \\ &=(1+\frac{(\underline{\delta}-1)}{(1+\overline{\gamma}^{-1})^{l}})J^*(x_k) \end{aligned}$

因此当 $i = l$ 时成立，证闭。

第二步证明右边成立

一、

同理可得
$\begin{aligned} V_1(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_0(x_{k+1})\} \\ &\leq \min_{u_k}\{U(x_k,u_k)+\overline{\delta}J^*(x_{k+1})\} \\ &\geq \min_{u_k}\{(1+\underline{\gamma}\frac{\overline{\delta}-1}{1+\underline{\gamma}})U(x_k,u_k)+(\overline{\delta}-\frac{\overline{\delta}-1}{1+\underline{\gamma}})J^*(x_{k+1})\} ~~~~~~~~~(1)\\ &= (1+\underline{\gamma}\frac{\overline{\delta}-1}{1+\underline{\gamma}})\min_{u_k}\{U(x_k,u_k)+J^*(x_{k+1})\} ~~~~~~~~~~~(2) \\ &=(1+\underline{\gamma}\frac{\overline{\delta}-1}{1+\underline{\gamma}})J^*(x_k) \end{aligned}$
二、

假设结论对 $i=l-1,l=1,2,\cdots$ 都成立，则 $i = l$ 可得
$\begin{aligned} V_{l}&=\min_{u_k}\{U(x_k,u_k)+V_{l-1}(x_{k+1})\} \\ &\leq \min_{u_k}\{U(x_k,u_k)+(1+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l-1}})J^*(x_k)+\frac{1-\overline{\delta}}{(1+\underline{\gamma})(1+\underline{\gamma}^{-1})^{l-1}}(J^*(x_{k+1})-\underline{\gamma}U(x_k,u_k))\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l-1}}-\frac{\overline{\delta}-1}{(1+\underline{\gamma})(1+\underline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\overline{\delta}-1)(1+\underline{\gamma})-\overline{\delta}+1}{(1+\underline{\gamma})(1+\underline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\overline{\delta}-1)\underline{\gamma}}{(1+\underline{\gamma})(1+\underline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})\} \\ &=\min_{u_k}\{U(x_k,u_k)+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{l}}U(x_k,u_k)+(1+\frac{(\overline{\delta}-1)}{(1+\underline{\gamma}^{-1})^{l}})J^*(x_{k+1})\} \\ &=(1+\frac{(\overline{\delta}-1)}{(1+\underline{\gamma}^{-1})^{l}})\min_{u_k}\{U(x_k,u_k)++J^*(x_{k+1})\} \\ &=(1+\frac{(\overline{\delta}-1)}{(1+\underline{\gamma}^{-1})^{l}})J^*(x_k) \end{aligned}$
因此当 $i = l$ 时成立，证闭。

这里限定了初值只能取到比最优代价函数小的初值。

定理二

重新定义
$0\leq\underline{\delta}\leq1\leq\overline{\delta}\leq\infty$
证明下面的式子成立
$(1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)\leq V_i(x_k)\leq(1+\frac{\overline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)$

证明

左边的证明跟上面是一样，只需要证明右边的即可。
$\begin{aligned} V_1(x_k,u_k)&=\min_{u_k}\{U(x_k,u_k)+V_0(x_{k+1})\} \\ &\leq\min_{u_k}\{U(x_k,u_k)+\overline{\delta}J^*(x_{k+1})+\frac{\overline{\delta}-1}{1+\overline{\gamma}}(\overline{\gamma}U(x_k,u_k)-J^*(x_{k+1}))\} \\ &=\min_{u_k}\{(1+\frac{\overline{\delta}-1}{1+\overline{\gamma}^{-1}})U(x_k,u_k)+(1+\frac{\overline{\delta}-1}{1+\overline{\gamma}^{-1}})J^*(x_k)\} \\ &=(1+\frac{\overline{\delta}-1}{1+\overline{\gamma}^{-1}})J^*(x_k) \\ \end{aligned}$
假设结论对 $i=l-1,l=1,2,\cdots$ 都成立，则 $i = l$ 可得
$\begin{aligned} V_{l}(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_{l-1}(x_{k+1})\} \\ &\leq \min_{u_k}\{U(x_k,u_k)+(1+\frac{\overline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l-1}})J^*(x_{k+1})+\frac{\overline{\delta}-1}{(1+\overline{\gamma})(1+\overline{\gamma}^{-1})^{l-1}}(\overline{\gamma}U(x_k,u_k)-J^*(x_{k+1}))\} \\ &=(1+\frac{\overline{\delta}-1}{(1+\overline{\gamma}^{-1})^{l}})J^*(x_k) \end{aligned}$
因此当 $i = l$ 时成立，证闭。

定理三

重新定义
$1\leq\underline{\delta}\leq\overline{\delta}\leq\infty$
满足
$(1+\frac{\underline{\delta}-1}{(1+\underline{\gamma}^{-1})^{i}})J^*(x_k)\leq V_i(x_k)\leq(1+\frac{\overline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)$
跟定理一的证明是一样的。

定理四

重新定义
$0\leq\underline{\delta}\leq\overline{\delta}\leq\infty$
使下式成立
$\lim_{i\rightarrow\infty}V_i(x_k)=J^*(x_k)$
证明：

左边的不等式
$\lim_{i\rightarrow\infty}\{(1+\frac{\underline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)\}=\lim_{i\rightarrow\infty}\{(1+\frac{\underline{\delta}-1}{(1+\underline{\gamma}^{-1})^{i}})J^*(x_k)\}=J^*(x_k)$
右边不等式
$\lim_{i\rightarrow\infty}\{(1+\frac{\overline{\delta}-1}{(1+\underline{\gamma}^{-1})^{i}})J^*(x_k)\}=\lim_{i\rightarrow\infty}\{(1+\frac{\overline{\delta}-1}{(1+\overline{\gamma}^{-1})^{i}})J^*(x_k)\}=J^*(x_k)$
上面的证明可以得出，收敛条件和初值是无关的，因此没有必要获取变量 $\underline{\gamma},\overline{\gamma},\underline{\delta}$ 和 $\overline{\delta}$ 变量。

定理五

如果
$V_1(x_k)\leq V_0(x_k)$
则
$V_{i+1}(x_k)\leq V_i(x_k)$

证明

用数学归纳法进行证明：

令 $i = 1$ ，可得
$\begin{aligned} V_2(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_1(x_{k+1})\} \\ &\leq \min_{u_k}\{U(x_k,u_k)+V_0(x_{k+1})\} \\ &=V_1(x_k) \end{aligned}$
假设结论对 $i=l-1,l=1,2,\cdots$ 都成立，则 $i = l$ 可得
$\begin{aligned} V_{l+1}(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_l(x_{k+1})\} \\ &\leq \min_{u_k}\{U(x_k,u_k)+V_{l-1}(x_{k+1})\} \\ &=V_l(x_k) \end{aligned}$

定理六

如果
$V_1(x_k)\geq V_0(x_k)$
则
$V_{i+1}(x_k)\geq V_i(x_k)$

证明

用数学归纳法进行证明：

令 $i = 1$ ，可得
$\begin{aligned} V_2(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_1(x_{k+1})\} \\ &\geq \min_{u_k}\{U(x_k,u_k)+V_0(x_{k+1})\} \\ &=V_1(x_k) \end{aligned}$
假设结论对 $i=l-1,l=1,2,\cdots$ 都成立，则 $i = l$ 可得
$\begin{aligned} V_{l+1}(x_k)&=\min_{u_k}\{U(x_k,u_k)+V_l(x_{k+1})\} \\ &\geq \min_{u_k}\{U(x_k,u_k)+V_{l-1}(x_{k+1})\} \\ &=V_l(x_k) \end{aligned}$

推论

如果 $V_1(x_k)\leq V_0(x_k)$ ，则 $V_i(x_k)\geq J^*(x_k)$

由定理五可知
$V_i(x_k)\geq V_{i+1}(x_k)\geq V_{i+2}(x_k)\geq\cdots\geq$
对于 $l\geq i$
$V_i(x_k)\geq V_l(x_K)$
可得
$V_i(x_k)\geq\lim_{l\rightarrow\infty}V_l(x_k)=J^*(x_k)$
同理可得果 $V_1(x_k)\geq V_0(x_k)$ ，则 $V_i(x_k)\leq J^*(x_k)$

上述推论，反过来是不成立的。知道初值的大小，是不能决定单调性的。

当满足一些条件也是成立的。

定理七

初值是一个半正定函数 $\Psi(x_k)$ ， $\overline{v}(x_k)$ 是容许控制律，则值函数是不增的函数， $\Psi(x_k)$ 满足
$\Psi(x_k)=U(x_k,\overline{v}(x_k))+\Psi(x_{k+1})$
证明：
$\begin{aligned} V_1(x_k)&=U(x_k,v_0(x_k))+V_0(x_{k+1}) \\ &=\min_{u_k}\{U(x_k,u_k)+\Psi(x_{k+1}\} \\ &\leq U(x_k,\overline{v}(x_k))+\Psi(x_{k+1}) \\ &=\Psi(x_k) \end{aligned}$
通过数学归纳法，就可以证明值函数是单调不增的。

通过上面的证明可以看出，如果任意定义一个初始值函数，不满足迭代公式时， $U(x_k,\overline{v}(x_k))+\Psi(x_{k+1})$ 的值的大小是未知的，因此比较公式会变成$V_1(x_k) $ 和 $U(x_k,\overline{v}(x_k))+\Psi(x_{k+1})$ 进行比较，这才是真正能和 $J^*(x_k)$ 进行比较的量，决定当前的单调性的地方。从公式中看出，此时不仅与初值有关，而且和当前控制网络的控制律有关。其实，也可以看做，当前的值迭代问题，又变成了策略迭代了。

如果此时的初始值函数是恒为零的函数， $V_1(x_k)$ 的值就是效用函数，肯定大于零，大于当前的初始值函数。

定理八

终止条件是
$|V_{i+1}(x_k)-V_i(x_k)|\leq \varepsilon$
控制律 $v_i(x_k)$ 是最终一致有界（UUB）。

定义：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e576hTLL-1604646023919)(C:\Users\Wandering\AppData\Roaming\Typora\typora-user-images\image-20201023152548119.png)]

证明

首先当初始值函数 $\Psi(x_k)$ 是半正定的，则 $V_i(x_k)$ 就是正定的。
$|V_{i+1}(x_k)-V_i(x_k)|\leq \varepsilon \rightarrow|U(x_k,v_i(x_k)+V_i(x_{k+1}))-V_i(x_k)|\leq\varepsilon\\ -U(x_k,v_i(x_k))-\varepsilon\leq\Delta V_i(x_k)=V_i(x_{k+1})-V_i(x_k)\leq-U(x_k,v_i(x_k))+\varepsilon$
我们可以很容易的证明当 $-U(x_k,v_i(x_k))-\varepsilon\leq\Delta V_i(x_k)$ ， $V_i(x_k)$ 是一个李雅普诺夫函数，此时系统是渐进稳定的。只需要分析 $0\leq\Delta V_i(x_k)\leq-U(x_k,v_i(x_k))+\varepsilon$ 这一种情形。

由于 $V_i(x_k)$ 是正定的，因此一定存在 $\alpha(||x_k||)$ 和 $\beta(||x_k||)$ 满足下面的式子
$0<\alpha(||x_k||)\leq V_i(x_k)\leq\beta(||x_k||)$
定义一个新的状态空间
$\Omega_{x_k}=\{x_k|x_k\in R^n~\text{and}~~U(x_k,v_i(x_k))\leq\varepsilon\}$
由于 $U(x_k,v_i(x_k))$ 是正定函数，因此 $x_k||$ 是有限的， $x_k||$ 是欧几里得范式。定义
$\varrho=\sup_{x_k\in \Omega_{x_k}}\{||x_k||\}$
由于 $\varepsilon$ 是有限的， $\varrho$ 是有限的，对于任意的 $\varrho$ 满足上式，总存在一个有限的 $\Gamma$ ， $||\Gamma||\geq||\varrho||$ ，满足
$\alpha(||\Gamma||)\geq\beta(||\varrho||)$
$\epsilon$ 满足 $\epsilon\geq||\Gamma||$ ，存在 $\delta(\epsilon)$ ，使 $\delta(\epsilon)\geq||\varrho||$ 成立，满足 $\beta(\delta)\leq\alpha(\epsilon)$ 。因此存在状态 $x_k$ ， $||\varrho||\leq||x_k||\leq\delta(\epsilon)$ ，满足
$\alpha(\epsilon)\geq\beta(\delta)\geq V_i(x_k)$
当 $||x_k||\geq||\varrho||$ ，可得
$V_i(x_{k+1})-V_i(x_k)\leq0$
因此对于任意 $x_k$ 满足 $||\varrho||\leq||x_k||\leq\delta(\epsilon)$ ,总存在一个 $T > 0$ 满足
$\alpha(\epsilon)\geq\beta(\delta)\geq V_i(x_k)\geq V_i(x_{k+T}\geq\alpha(||x_{k+T}||))$
可以得到 $\epsilon>||x_{k+T}||$ 。因此对于任意的 $x_k$ ，满足 $||x_k||\geq||\varrho||$ 存在 $T=1,2,\cdots$ ，使 $||x_{k+T}||\leq||\varrho||$ 成立。当 $||\Gamma||\geq||\varrho||$ ，我们可以获得 $||x_{k+T}||\leq||\Gamma||$ ,因此定理得证。

这里 $0\leq\Delta V_i(x_k)\leq-U(x_k,v_i(x_k))+\varepsilon$ 可以看出 $U(x_k,v_i(x_k))\leq\varepsilon$ ，对效用函数进行了限制，当不满足这个不等式时，系统是渐进稳定的，因此系统在这个条件下状态向量有界。

定理九

当满足条件
$V_{i+1}(x_k)-V_i(x_k)<U(x_k,v_i(x_k))$
此时的控制律 $v_i(x_k)$ 是容许控制律。

存在 $-\infty<\theta<1$
$V_{i+1}(x_k)-V_i(x_k)<\theta U(x_k,v_i(x_k)) \\ U(x_k,v_i(x_k))+V_i(x_{k+1})-V_i(x_k)<\theta U(x_k,v_i(x_k)) \\ V_i(x_{k+1})-V_i(x_k)<(\theta-1) U(x_k,v_i(x_k))$
因此 $V_i(x_{k+1})-V_i(x_k)<0$ ，由李雅普诺夫稳定判据可知，系统是稳定的，故当前的控制是稳定的控制。
$\left \{ \begin{array}{cll} V_i(x_{k+1})-V_i(x_k)&<&(\theta-1)U(x_k,v_i(x_k)) \\ V_i(x_{k+2})-V_i(x_{k+1})&<&(\theta-1)U(x_{k+1},v_i(x_{k+1})) \\ V_i(x_{k+3})-V_i(x_{k+2})&<&(\theta-1)U(x_{k+2},v_i(x_{k+2})) \\ \cdot&& \\ \cdot&& \\ \cdot&& \\ V_i(x_{k+N})-V_i(x_{k+N-1})&<&(\theta-1)U(x_{k+N-1},v_i(x_{k+N-1})) \\ \end{array} \right.$
可得
$V_i(x_{k+N})-V_i(x_k)<(\theta-1)\sum_{j=0}^{N}U(x_{k+j},v_i(x_{k+j}))$
当 $v_i(x_k)$ 是稳定的控制， $N\rightarrow\infty$ 时， $x_N\rightarrow0,V_i(x_{k+N})\rightarrow0$ ，因此可得
$V_i(x_k)>(1-\theta)\sum_{j=0}^{N}U(x_{k+j},v_i(x_{k+j}))$
对于有限的状态 $x_k$ ，值函数 $V_i(x_k)$ 都是有限的，因此可以知 $\sum_{j=0}^{N}U(x_{k+j},v_i(x_{k+j}))$ 是有限的，则控制律 $v_i(x_k)$ 是容许控制律。

定理十

存在一个有限的常数 $N > 0$ 满足
$V_{N+1}(x_k)-V_N(x_k)<U(x_k,v_N(x_k))$
证明

利用反证法进行证明，对于 $N=0,1,\cdots$ ，任意 $\overline{x}_k\in R^n$ ，满足
$V_{N+1}(\overline{x}_k)-V_N(\overline{x}_k)\geq U(\overline{x}_k,v_N(\overline{x}_k))$
当 $N\rightarrow\infty$ ，根据定理四我们可以得到 $\lim_{N\rightarrow}(V_{N+1}(\overline{x}_k)-V_N(\overline{x}_k))=0$ ，根据上式就可以得出
$\lim_{N\rightarrow}(V_{N+1}(\overline{x}_k)-V_N(\overline{x}_k))=U(\overline{x}_k,v_N(\overline{x}_k))=0$
对任意 $\overline{x}_k\in R^n$ 都成立。这与效用函数 $U(x_k,u_k)$ 是正定的相矛盾。所以定理得证。

定理十一

$V_{i+1}(x_k)+V_{i+j}(x_k)\geq V_i(x_k)+V_{i+j+1}(x_k)$
$V_j(x_k)\geq \frac{1}{2}(V_{j+1}(x_k)+V_{j-1}(x_k))$
$\Delta V_j(x_k)=V_j(X_K)-V_{j-1}(x_k)$ ，对于所有的 $j > i$ ， $\Delta V_j(x_k)\geq\Delta V_{j+1}(x_k)$

则 $v_j(x_k)$ 是容许的控制。

值函数满足 $V_{i+1}(x_k)-V_i(x_k)<U(x_k,v_i(x_k))$

证明
$(V_{i+j+1}(x_k)-V_{i+j}(x_k))-(V_{i+1}(x_k)-V_i(x_k))\leq0$
可得
$(V_{i+j+1}(x_k)-U(x_k,v_{i+j}(x_k)))-V_{i+j}(x_k)\leq V_{i+1}(x_k)-U(x_k,v_i(x_k))-V_i(x_k)+U(x_k,v_i(x_k)) \\ V_{i+j+1}(x_{k+1})-V_{i+j}(x_k)\leq V_{i}(x_{k+1})-V_i(x_k)+U(x_k,v_i(x_k))<0$
由定理九可知，此控制是容许的控制。

后面这几条定理，都是为了得到 $V_i(x_{k+1})-V_i(x_{k})<0$ 的结论，当这个条件满足了，就是李雅普诺夫函数满足了，因此此时肯定是一个稳定的控制。

WanderingSIN

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
自适应动态规划（五)-初值不为零的值迭代

初值不为零的值迭代稳定性证明定理一问题描述假设初值为任意半正定函数V0(xk)=Ψ(xk)V_0(x_k)=\Psi(x_k)V0(xk)=Ψ(xk)定义变量 γ‾,γ‾,δ‾\underline{\gamma},\overline{\gamma},\underline{\delta}γ,γ,δ 和δ‾\overline{\delta}δ 变量如下：KaTeX parse error: No such environment: equation at position 8: \
复制链接

扫一扫

专栏目录