自适应动态规划(四)-离散策略迭代证明

最新推荐文章于 2023-04-23 16:05:39 发布

WanderingSIN

最新推荐文章于 2023-04-23 16:05:39 发布

阅读量1.6k

点赞数

分类专栏： ADP 优化算法强化学习文章标签：算法人工智能深度学习

本文链接：https://blog.csdn.net/qq_34445388/article/details/109531830

版权

优化算法同时被 3 个专栏收录

6 篇文章 9 订阅

订阅专栏

ADP

5 篇文章 41 订阅

订阅专栏

强化学习

4 篇文章 2 订阅

订阅专栏

策略迭代

策略迭代稳定性证明

单调不增的证明

迭代过程

取一个随机容许初始控制律 $v_0(x_k)$
$V_0(x_k)=U(x_k,v_0(x_k))+V_0(x_{k+1})$
在更新控制律
$v_1(x_k)=\arg \min_{u_k}\{{U(x_k,u_k)+V_0(x_{k+1})}\}$
对任意的 $i=1,2,3,\cdots$
$V_i(x_k)=U(x_k,v_i(x_k))+V_i(x_{k+1}) \\ v_{i+1}(x_k)=\arg \min_{u_k}\{U(x_k,u_k)+V_i(x_{k+1})\} \\$
结论：
$V_{i+1}(x_k)\leq V_i(x_k)$
证明：

定义一个代价函数
$\Gamma_{i+1}(x_k)=U(x_k,v_{i+1}(x_k))+V_i(x_{k+1})$
由上面的定义可以看出 $v_{i+1}$ 是 $U(x_k,v_i(x_k))+V_i(x_{k+1})$ 的最小取值，因此
$\Gamma_{i+1}(x_k) \leq V_i(x_k)$
下面由数学归纳法进行证明

第一步：

我们知道 $v_{i+1}$ 是稳定的控制律，因此当 $\forall k\rightarrow\infty$ 时 $x_k\rightarrow0$ 。令 $x_N=0$ ， $N\rightarrow\infty$ 。由此可以得
$V_{i+1}(x_N)=\Gamma_{i+1}(x_N)=V_i(x_N)=0$
第二步：

令 $k = N - 1$ ，可得
$\begin{aligned} v_{i+1}(x_{N-1})&=\arg \min_{u_{N-1}}\{U(x_k,u_{N-1})+V_i(x_{N})\} \\ &=\arg \min_{u_{N-1}}\{U(x_k,u_{N-1})+V_{i+1}(x_{N})\} \end{aligned}$

$\begin{aligned} V_{i+1}(x_{N-1})&=U(x_{N-1},v_{i+1}(x_{N-1}))+V_{i+1}(x_{N}) \\ &=\min_{u_{N-1}}\{U(x_{N-1},u_{N-1})+V_i(x_N)\} \\ &\leq U(x_{N-1},v_{i}(x_{N-1}))+V_i(x_N) \\ &=V_i(x_{N-1}) \end{aligned}$

假设上述条件所有的 $k = l + 1$ ， $l=0,1,2,\cdots$ ，当 $k = l$ 时我们可得
$\begin{aligned} V_{i+1}(x_l)&=U(x_l,v_{i+1}(x_l))+V_{i+1}(x_{l+1}) \\ &\leq U(x_l,v_{i+1}(x_l))+V_i(x_{l+1}) (这一步是由上面的假设，V_{i+1}(x_{N-1}\leq V_i(x_{N-1}))得到的) \\ &=\Gamma_{i+1}(x_l) \\ &\leq V_i(x_l) \end{aligned}$
成立。

数学归纳法证明完毕。

因此可以得出，值函数在迭代过程中是单调不减的。

值函数收敛到最优值

结论：
$\lim_{i\rightarrow\infty}V_i(x_k)=J^*(x_k)$
分三步进行证明

第一步

证明当到达无穷时，值函数满足HJB方程。
$V_{\infty}(x_k)=\lim_{i\rightarrow\infty}V_i(x_k)$

$\begin{aligned} \Gamma_{i+1}(x_k)&=U(x_k,v_{i+1}(x_k))+V_i(x_{k+1}) \\ &=\min_{u_k}\{U(x_k,u_k)+V_i(x_{k+1})\} \end{aligned}$

刚刚证明了值函数是单调不增有下界的函数其中 $V_{\infty}(x_k)$ 就是下界。

可得*（这里不太清楚是怎么证明出结论的，除非提前认定 $V_{\infty}(x_k)$ 就是下界，不然 $V_i(x_k)\leq V_{i+1}(x_k)$ 很难说明，因为上述证明这是不增的。）*
$\begin{aligned} V_{\infty}(x_k)&=\lim_{i\rightarrow\infty}V_i(x_k) \\ &\leq \lim_{i\rightarrow\infty}V_{i+1}(x_k) \\ &\leq \lim_{i\rightarrow\infty}\Gamma_{i+1}(x_k) \\ &\leq \lim_{i\rightarrow\infty}\min_{u_k}\{U(x_k,u_k)+V_i(x_{k+1})\}\\ &\leq \min_{u_k}\{U(x_k,u_k)+V_{\infty}(x_{k+1})\} \end{aligned}$
任意 $\varepsilon>0$ ，存在一个正整数 $p$
$V_p(x_k)-\varepsilon \leq V_{\infty}(x_k)\leq V_p(x_k)$
因此
$\begin{aligned} V_{\infty}(x_k) &\geq U(x_k,v_p(x_k))+V_p(x_{p+1})-\varepsilon \\ &\geq U(x_k,v_p(x_k))+V_{\infty}(x_{p+1})-\varepsilon \\ &\geq \min_{u_k}\{U(x_k,u_k)+V_{\infty}(x_{k+1})\}-\varepsilon \end{aligned}$
由于 $\varepsilon$ 是任意的，可得
$V_{\infty}(x_k) \geq \min_{u_k}\{U(x_k,u_k)+V_{\infty}(x_{k+1})\}$
由此可以得出
$V_{\infty}(x_k) = \min_{u_k}\{U(x_k,u_k)+V_{\infty}(x_{k+1})\}$
上述的推导核心就是** $V_i(x_k)$ 有下界**。

定义一个新的代价函数 $P(x_k)$ ，假设 $\mu(x_k)$ 为容许控制律。
$P(x_k)=U(x_k,\mu(x_k))+P(x_{k+1})$

第二步

证明 $V_{\infty}(x_k)\leq P(x_k)$ ，通俗讲就是证明 $V_{\infty}(x_k)$ 就是 $J^*$ 的下界，因为 $V_i(x_k)$ 肯定大于最优代价函数，夹逼定理就可以证明结论。

通过数学归纳法进行证明：

第一步：

因为 $\mu(x_k)$ 是容许控制，当 $k\rightarrow\infty$ 时 $x_k\rightarrow0$ 。
$P(x_k)=\lim_{N\rightarrow \infty}\{U(x_k,\mu(x_k))+U(x_{k+1},\mu(x_{k+1}))+\cdots+U(x_{N-1},\mu(x_{N-1}))+P(x_N)\}$

$\begin{aligned} V_{\infty}(x_k)&=\lim_{N\rightarrow \infty}\{U(x_k,v_{\infty}(x_k))+U(x_{k+1},v_{\infty}(x_{k+1}))+\cdots+U(x_{N-1},v_{\infty}(x_{N-1}))+V_{\infty}(x_N)\} \\ &=\lim_{N\rightarrow \infty}\{\min_{u(k)}\{U(x_k,u_k)+\min_{u_{k+1}}\{U(x_{k+1},u_{k+1})+\cdots+\min_{u_{N-1}}\{U(x_{N-1},u_{N-1})+V_{\infty}(x_N)\}\}\}\} \end{aligned}$

我们知道当 $N\rightarrow\infty$ 时 $V_{\infty}(x_N)=P(x_N)=0$ 。对于 $N - 1$ 的情况
$\begin{aligned} P(x_{N-1})&=U(x_{N-1},\mu(x_{N-1}))+P(x_N) \\ &\geq \min_{u_{N-1}}\{U(x_{N-1},u_{N-1})+P(x_N)\} \\ &=\min_{u_{N-1}}\{U(x_{N-1},u_{N-1})+V_{\infty}(x_N)\} \\ &=V_{\infty}(x_{N-1}) \end{aligned}$
第二步：

假设上述对于 $k = l + 1$ ， $l=0,1,2,\cdots$ 都成立即 $P(x_{l})\geq V_{\infty}(x_{l})$ ，当 $k = l$ 时
$\begin{aligned} P(x_l)&=U(x_l,\mu(x_l))+P(x_{l+1}) \\ &\geq\min_{u_l}U(x_l,u_l)+P(x_{l+1}) \\ &\geq\min_{u_l}U(x_l,u_l)+V_{\infty}(x_{l+1}) \\ &=V_{\infty}(x_{l}) \end{aligned}$
因此对于任意 $\forall x_k$ ， $k=0,1,2,\cdots$
$V_{\infty}(x_{k})\leq P(x_k)$
数学归纳法证明完毕。

第三步

证明下界就是最优值

由对值函数的迭代定义知道，值函数是恒大于等于最优值的
$V_i(x_k)\geq J^*(x_k)$
当 $i\rightarrow\infty$
$V_{\infty}(x_k)\geq J^*(x_k)$
值函数 $P(x_k)$ 取最优控制律，则就是最优代价函数 $J^*(x_k)$ 。
$V_{\infty}(x_k)\leq J^*(x_k)$
因此
$V_{\infty}(x_k)\leq J^*(x_k)\leq V_{\infty}(x_k) \\ V_{\infty}(x_k) = J^*(x_k)$
证闭。

评价网络训练过程中目标函数的获取

在实际的迭代过程中我们是用一个神经网络去近似一个代价函数 $V_i(x_k)$ 。评价网络写成如下形式：
$V^j_i(\omega,x_k)$
输入的是系统的状态向量，输出系统的控制量。其中参数i表示当前迭代的次数，j代表的是评价网络在本次迭代中拟合代价函数的迭代次数。网络训练的代价函数
$KaTeX parse error: Expected '}', got '_' at position 12: \text{loss_̲V}=V^j_i(\omega…$
其中的目标在迭代的过程中可以通过迭代计算进行近似获取。
$V_i(x_k)=\sum_{j=0}^{N-1}U(x_{k+j},v_i(x_{k+j}))+V_i(x_{k+N})$
由于 $v_i(x_k)$ 是容许控制，可知当 $N\rightarrow\infty$ 时， $V_i(x_{k+N})\rightarrow 0$ 。因此我们取足够大的 $N$
$V_i(x_k)=\sum_{j=0}^{N-1}U(x_{k+j},v_i(x_{k+j}))$
通过求和计算，就能够获得相对精确的目标函数。

总结

策略迭代可以保证迭代过程中的控制一直是稳定的控制律**（这个证明还没看出来）**，这是策略迭代比值迭代有更高可用性的地方，但是策略迭代需要保证初始的控制律需要稳定的，因此刚开始需要大量的试初值获取一个稳定的初始控制律，这是一件比较烦人的事情。而值迭代只需要给定一个正定的初值，就能够迭代到收敛，增加了自适应动态规划的可用性。

实验中的一些思考

在实际的训练过程中，因为使用的是用神经网络对评价函数和控制函数进行拟合，必然会存在误差，因此会出现理论推导不符的现象。例如，在初值为零的值迭代问题，我们训练的控制网络理论上是当前值函数的最优控制，可是实际中是存在误差的，因此可以看到，当快要收敛时值函数并不是单调不减，而是会出现震荡收敛的现象。因为迭代过程中控制网络不是最优，因此当前控制的实际值函数必然大于当前的估计值函数，因此迭代过程就变成了，策略迭代问题，认为值函数是最优的去寻找当前最优的控制策略。

策略迭代和值迭代在迭代的中间过程基本是相同的，因此在中间过程中一直是相互切换的，可能比较重要的区分点就是初值是取的值函数还是策略函数。我认为这两种迭代，**值迭代默认为每次选取的控制是最优的，而策略迭代默认为值函数是最优值。**所以当初值为零时，值迭代的值函数是不减的，而策略迭代每次初始选取的控制肯定不是最优，因此值函数肯定大于最优值函数，因此此时的值函数是不增的。