(《机器学习》完整版系列)第16章 强化学习——16.5 策略改进(单调递增有界序列必收敛)

有模型策略估值算法可得到所有状态在给定策略下的值,这样就可以对多个策略进行比较选优,不断地调整策略,使其达到最优。
方法:构造出“勉强”的单调递增有界序列(对应策略序列),利用单调递增有界序列必收敛的定理进行推导。

策略改进

上篇16.4 有模型策略估值算法中用策略估值算法可得到所有状态 x x x在策略 π \pi π下的 { V π ( x ) } x ∈ A \{V^{\pi }(x)\}_{x\in A} {Vπ(x)}xA,就可以对多个策略进行比较选优,下面讨论最优策略算法,即调整策略 π \pi π,使其达到最优。

最优策略的目标是“状态值的均值”(奖赏均值)最大化
max ⁡ π E x ∈ X V π ( x ) \begin{align} \mathop{\max}\limits_{\pi}\mathop{\mathbb{E} }\limits_{x\in X}V^{\pi }(x) \tag{16.25} \end{align} πmaxxXEVπ(x)(16.25)

在状态有限且各状态等概率地作为出发点 x 0 x_0 x0的条件下,式(16.25)化为
max ⁡ π 1 ∣ X ∣ ∑ x ∈ X V π ( x ) \begin{align} \mathop{\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x) \tag{16.26} \end{align} πmaxX1xXVπ(x)(16.26)
这时,最优策略为
π ∗ = arg ⁡ max ⁡ π 1 ∣ X ∣ ∑ x ∈ X V π ( x ) = arg ⁡ max ⁡ π ∑ x ∈ X V π ( x ) \begin{align} \pi ^{*} & =\mathop{\arg\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x)\notag \\ & =\mathop{\arg\max}\limits_{\pi}\sum_{x\in X}V^{\pi }(x) \tag{16.27} \end{align} π=πargmaxX1xXVπ(x)=πargmaxxXVπ(x)(16.27)
由于可能会有等值情况(类似于投票时,出现相同票数),故式(16.27)的解 π ∗ \pi ^{*} π可以不唯一。

π ∗ \pi ^{*} π取代式(16.17)中的 π \pi π,则有
V π ∗ ( x ) = ∑ a ∈ A π ∗ ( x , a ) Q π ∗ ( x , a ) ⩽ ∑ a ∈ A π ∗ ( x , a ) Q π ∗ ( x , a ∗ ) (取 a ∗ = arg ⁡ max ⁡ a ∈ A Q π ∗ ( x , a ) ) = Q π ∗ ( x , a ∗ ) ∑ a ∈ A π ∗ ( x , a ) = Q π ∗ ( x , a ∗ ) = max ⁡ a ∈ A Q π ∗ ( x , a ) \begin{align} V^{\pi ^{*}}(x) & =\sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a)\notag \\ & \leqslant \sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a^*)\quad \text{(取$a^*=\mathop{\arg\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a)$)} \tag{16.28} \\ & = Q^{\pi ^{*}}(x,a^*)\sum_{a\in A}\pi ^{*}(x,a)\notag \\ & = Q^{\pi ^{*}}(x,a^*)\notag \\ & = \mathop{\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a) \tag{16.29} \end{align} Vπ(x)=aAπ(x,a)Qπ(x,a)aAπ(x,a)Qπ(x,a)(取a=aAargmaxQπ(x,a)=Qπ(x,a)aAπ(x,a)=Qπ(x,a)=aAmaxQπ(x,a)(16.28)(16.29)
由于最优 V π ∗ ( x ) V^{\pi ^{*}}(x) Vπ(x)已经达到了最大值,故不等式(16.28)实为等式(否则右则更优),将上标“ π ∗ {\pi ^{*}} π”简记为“ ∗ {*} ”,则有
V ∗ ( x ) = max ⁡ a ∈ A Q ∗ ( x , a ) \begin{align} V^{{*}}(x) & = \mathop{\max}\limits_{a\in A}Q^{{*}}(x,a) \tag{16.30} \end{align} V(x)=aAmaxQ(x,a)(16.30)

将式(16.30)代入【西瓜书式(16.10)】右侧(用 π ∗ \pi ^{*} π取代 π \pi π后),则得最优状态-动作值函数等式【西瓜书式(16.15)】。 反过来,将【西瓜书式(16.10)】(用 π ∗ \pi ^{*} π取代 π \pi π后)代入式(16.30)右侧,则得最优状态值函数等式【西瓜书式(16.13)】。

最优值函数的等式(【西瓜书式(16.13)】【西瓜书式(16.15)】)称为最优Bellman等式。 显然,给定 π ∗ \pi ^{*} π后,最优值函数是唯一确定的,而反之,式(16.27)告诉我们 π ∗ \pi ^{*} π可能不唯一。

最优Bellman等式的另一个推导思路:

假定已计算出所有点处的步数为 T − 1 T-1 T1的最优值 V T − 1 ∗ ( x ′ ) V^*_{T-1}(x') VT1(x),则由【西瓜书式(16.7)】有
V T ∗ ( x ) = ∑ a ∈ A π ∗ ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 ∗ ( x ′ ) ) ⩽ ∑ a ∈ A π ∗ ( x , a ) max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 ∗ ( x ′ ) ) = max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 ∗ ( x ′ ) ) ∑ a ∈ A π ∗ ( x , a ) = max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 ∗ ( x ′ ) ) \begin{align} V^*_T(x) & =\sum_{a\in A}\pi ^*(x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi ^*(x,a) \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\sum_{a\in A}\pi ^*(x,a) \notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right) \tag{16.31} \end{align} VT(x)=aAπ(x,a)xAPxxa(T1Rxxa+TT1VT1(x))aAπ(x,a)aAmaxxAPxxa(T1Rxxa+TT1VT1(x))=aAmaxxAPxxa(T1Rxxa+TT1VT1(x))aAπ(x,a)=aAmaxxAPxxa(T1Rxxa+TT1VT1(x))(16.31)
再由 V T ∗ ( x ) V^*_T(x) VT(x)的最优性(最大)知,式(16.31)应取等号,这即证【西瓜书式(16.13)】第一式;同样,由【西瓜书式(16.8)】,从最优值 V γ , + ∞ ∗ ( x ′ ) V^*_{\gamma ,+\infty }(x') Vγ,+(x)递推出最优值 V γ , + ∞ + 1 ∗ ( x ) V^*_{\gamma ,+\infty+1 }(x) Vγ,++1(x),类似即证【西瓜书式(16.13)】第二式。

最优Bellman等式只是:在已知最优策略 π ∗ \pi ^{*} π的情况下,求最优值函数 V ∗ V^* V Q ∗ Q^* Q的递推方法。 那么,如何利用它求最优策略 π ∗ \pi ^{*} π?方法就是:把最优Bellman等式作为检验策略是否最优的判别式,即最优策略应满足
V T π ∗ ( x ) = max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 π ∗ ( x ′ ) ) \begin{align} V^{\pi ^*}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi ^*}_{T-1}(x')\right) \tag{16.32} \end{align} VTπ(x)=aAmaxxAPxxa(T1Rxxa+TT1VT1π(x))(16.32)
然后,参照式(16.32)的结构,构造一个关于策略改进的递推式( π → π ′ \pi \to \pi ' ππ
V T π ′ ( x ) = max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 π ( x ′ ) ) = ∑ x ′ ∈ A P x → x ′ a ′ ( 1 T R x → x ′ a ′ + T − 1 T V T − 1 π ( x ′ ) ) \begin{align} V^{\pi '}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right)\notag \\ & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.33} \end{align} VTπ(x)=aAmaxxAPxxa(T1Rxxa+TT1VT1π(x))=xAPxxa(T1Rxxa+TT1VT1π(x))(16.33)
其中, a ′ = π ′ ( x ) a'=\pi '(x) a=π(x),改善
π ′ ( x ) = arg ⁡ max ⁡ a ∈ A ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 π ( x ′ ) ) \begin{align} \pi '(x) & =\mathop{\arg\max}\limits_{a\in A}\sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.34} \end{align} π(x)=aAargmaxxAPxxa(T1Rxxa+TT1VT1π(x))(16.34)
由【西瓜书式(16.10)】,式(16.34)变为
a ′ = π ′ ( x ) = arg ⁡ max ⁡ a ∈ A Q π ( x , a ) \begin{align} a'=\pi '(x)=\mathop{\arg\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.35} \end{align} a=π(x)=aAargmaxQπ(x,a)(16.35)
其中, Q Q Q Q T Q_T QT Q γ Q_{\gamma } Qγ(对应于 V T V_T VT V γ V_{\gamma } Vγ)。

在此新策略 π ′ \pi ' π下,16.3 有模型迭代式的详细推导图16.6 变为图16.10 ,其 中保留权重最大的一支( x → a ′ x\to a' xa),删除其他分枝(类似于剪枝)。
图16.10 新策略下状态转移

图16.10 新策略$\pi '$下状态转移

由此可知,基于已知的随机策略 π \pi π16.3 有模型迭代式的详细推导图16.6 )的改进策略 π ′ \pi ' π(图16.10 )是确定性策略。
即这时相当于16.3 有模型迭代式的详细推导图16.6 中有
π ′ ( x , a ) = { 1 , ( a = a ′ ) 0 , ( a ≠ a ′ ) \begin{align} \pi '(x,a)= \begin{cases} 1,\quad \text{($a=a'$)} \\ 0,\quad \text{($a\neq a'$)} \end{cases} \tag{16.36} \end{align} π(x,a)={1,a=a0,a=a(16.36)
其中, a ′ a' a由式(16.35)定义。

T T T较大时,从 x ′ x' x出发的 T T T步值 V T π ( x ′ ) V^{\pi }_{T}(x') VTπ(x) T − 1 T-1 T1步值 V T − 1 π ( x ′ ) V^{\pi }_{T-1}(x') VT1π(x)近似。观察式(16.33): a ′ a' a由式(16.35)中 x x x确定, x ′ x' x由“和”消去(即它为局部变量), x x x为自变量,包含两个递进( T − 1 → T T-1\to T T1T π → π ′ \pi \to \pi ' ππ),因此,应消去递进( T − 1 → T T-1\to T T1T),保留需要的递进( π → π ′ \pi \to \pi ' ππ),由式(16.21)知取近似合理。
因此,式(16.33)调整为
V T π ′ ( x ) = ∑ x ′ ∈ A P x → x ′ a ′ ( 1 T R x → x ′ a ′ + T − 1 T V T π ( x ′ ) ) \begin{align} V_T^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V_T^{\pi }(x')\right) \tag{16.37} \end{align} VTπ(x)=xAPxxa(T1Rxxa+TT1VTπ(x))(16.37)
这就是一个“ T T T型累积”的策略改进的递推式( π → π ′ \pi \to \pi ' ππ)。

对应的“ γ \gamma γ型累积”的策略改进的递推式为
V γ π ′ ( x ) = ∑ x ′ ∈ A P x → x ′ a ′ ( R x → x ′ a ′ + γ V γ π ( x ′ ) ) \begin{align} V_{\gamma}^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}(R^{a'}_{x\rightarrow x'}+{\gamma}V_{\gamma}^{\pi }(x')) \tag{16.38} \end{align} Vγπ(x)=xAPxxa(Rxxa+γVγπ(x))(16.38)
策略改进序列如图16.11 所示。
在这里插入图片描述

图16.11 策略改进序列

下面我们证明单调性 V γ π ( x ) ⩽ V γ π ′ ( x ) V_{\gamma}^{\pi }(x)\leqslant V_{\gamma}^{\pi '}(x) Vγπ(x)Vγπ(x)
V γ π ( x ) = ∑ a ∈ A π ( x , a ) Q γ π ( x , a ) (由式(16.17)) ⩽ ∑ a ∈ A π ( x , a ) Q γ π ( x , a ′ ) (由式(16.35)) = Q γ π ( x , a ′ ) ∑ a ∈ A π ( x , a ) = Q γ π ( x , a ′ ) = ∑ x ′ ∈ A P x → x ′ a ′ ( R x → x ′ a ′ + γ V γ π ( x ′ ) ) (由【西瓜书式(16.10)】) = V γ π ′ ( x ) (由式(16.38)) \begin{align} V_{\gamma}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a)\quad \text{(由式(16.17))}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a')\quad \text{(由式(16.35))}\notag \\ & =Q^{\pi}_{\gamma}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{\gamma}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(R^{a'}_{x\rightarrow x'}+{\gamma}V^{\pi }_{\gamma}(x')\right) \quad \text{(由【西瓜书式(16.10)】)}\notag \\ & =V_{\gamma}^{\pi '}(x)\quad \text{(由式(16.38))} \tag{16.39} \end{align} Vγπ(x)=aAπ(x,a)Qγπ(x,a)(由式(16.17)aAπ(x,a)Qγπ(x,a)(由式(16.35)=Qγπ(x,a)aAπ(x,a)=Qγπ(x,a)=xAPxxa(Rxxa+γVγπ(x))(由【西瓜书式(16.10)】)=Vγπ(x)(由式(16.38)(16.39)

由式(16.39)知,值函数序列(右上角编号对应于策略 π \pi π的改进序列 π 1 , π 2 , π 3 , ⋯ \pi_1, \pi_2,\pi_3,\cdots π1,π2,π3,
V γ 1 ( x ) , V γ 2 ( x ) , V γ 3 ( x ) , ⋯ \begin{align} V_{\gamma }^{1}(x),V_{\gamma }^{2}(x),V_{\gamma }^{3}(x),\cdots \tag{16.40} \end{align} Vγ1(x),Vγ2(x),Vγ3(x),(16.40)
是单调递增。

R max ⁡ = max ⁡ x ∈ X ( R x → x ′ a ) R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'}) Rmax=xXmax(Rxxa),有
V γ π ( x ) = E π ∑ t = 0 ∞ γ t r t + 1 = E π ∑ t = 0 ∞ γ t ( ∑ a ∈ A π ( x t , a ) ∑ x t + 1 ∈ A P x t → x t + 1 a R x t → x t + 1 a ) ⩽ E π ∑ t = 0 ∞ γ t ( ∑ a ∈ A π ( x t , a ) ∑ x t + 1 ∈ A P x t → x t + 1 a R max ⁡ ) = E π ∑ t = 0 ∞ γ t R max ⁡ = R max ⁡ ∑ t = 0 ∞ γ t = R max ⁡ 1 − γ \begin{align} V_{\gamma}^{\pi }(x) & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t r_{t+1}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R^a_{x_t\rightarrow x_{t+1}}\right)\notag \\ & \leqslant \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R_{\max}\right)\notag \\ & = \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t R_{\max}\notag \\ & = R_{\max}\sum_{t=0}^\infty \gamma ^t \notag \\ & =\frac{R_{\max}}{1-\gamma} \tag{16.41} \end{align} Vγπ(x)=πEt=0γtrt+1=πEt=0γt aAπ(xt,a)xt+1APxtxt+1aRxtxt+1a πEt=0γt aAπ(xt,a)xt+1APxtxt+1aRmax =πEt=0γtRmax=Rmaxt=0γt=1γRmax(16.41)
由式(16.41)知它有界。

数学上已知:单调递增有界序列必收敛,故序列(16.40)收敛,从而对应的策略改进序列也收敛,对式(16.33)中的策略取极限,即得到(满足)最优Bellman等式。

同样,得到 V T π V_{T}^{\pi} VTπ型中策略的改进式也为式(16.35)。

也可以证明它是有界的:

R max ⁡ = max ⁡ x ∈ X ( R x → x ′ a , V 1 π ( x ) ) R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'},V^{\pi}_1(x)) Rmax=xXmax(Rxxa,V1π(x)),则 V 1 π ( x ) ⩽ R max ⁡ V^{\pi}_1(x)\leqslant R_{\max} V1π(x)Rmax

若假设 V K − 1 π ( x ) ⩽ R max ⁡ V^{\pi}_{K-1}(x)\leqslant R_{\max} VK1π(x)Rmax,则
V K π ( x ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( 1 K R x → x ′ a + K − 1 K V K − 1 π ( x ′ ) ) ⩽ ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( 1 K R max ⁡ + K − 1 K V K − 1 π ( x ′ ) ) = 1 K R max ⁡ + ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( K − 1 K V K − 1 π ( x ′ ) ) ⩽ 1 K R max ⁡ + ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( K − 1 K R max ⁡ ) (由数学归纳法假设) = 1 K R max ⁡ + K − 1 K R max ⁡ = R max ⁡ ( x ) \begin{align} V^{\pi}_K(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R^a_{x\to x'}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R_{\max}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & = \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}R_{\max}\right)\quad \text{(由数学归纳法假设)}\notag \\ & = \frac{1}{K}R_{\max}+\frac{K-1}{K}R_{\max}\notag \\ & = R_{\max}(x) \tag{16.42} \end{align} VKπ(x)=aAπ(x,a)xAPxxa(K1Rxxa+KK1VK1π(x))aAπ(x,a)xAPxxa(K1Rmax+KK1VK1π(x))=K1Rmax+aAπ(x,a)xAPxxa(KK1VK1π(x))K1Rmax+aAπ(x,a)xAPxxa(KK1Rmax)(由数学归纳法假设)=K1Rmax+KK1Rmax=Rmax(x)(16.42)
由式(16.42)及数学归纳法原理,故 V T π ( x ) V^{\pi}_T(x) VTπ(x)有界。

然而,改进序列的单调递增性有些“勉强”:
V T π ( x ) = ∑ a ∈ A π ( x , a ) Q T π ( x , a ) (由式(16.17)) ⩽ ∑ a ∈ A π ( x , a ) Q T π ( x , a ′ ) (由式(16.35)) = Q T π ( x , a ′ ) ∑ a ∈ A π ( x , a ) = Q T π ( x , a ′ ) = ∑ x ′ ∈ A P x → x ′ a ′ ( 1 T R x → x ′ a ′ + T − 1 T V T − 1 π ′ ( x ′ ) ) (由【西瓜书式(16.10)】) ≈ ∑ x ′ ∈ A P x → x ′ a ′ ( 1 T R x → x ′ a ′ + T − 1 T V T π ′ ( x ′ ) ) (由式(16.21)) = V T π ′ ( x ) (由式(16.37)) \begin{align} V_{T}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a)\quad \text{(由式(16.17))}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a')\quad \text{(由式(16.35))} \tag{16.43} \\ & =Q^{\pi}_{T}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{T}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T-1}(x')\right) \quad \text{(由【西瓜书式(16.10)】)}\notag \\ & \approx \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T}(x')\right)\quad \text{(由式(16.21))} \tag{16.44} \\ & =V_{T}^{\pi '}(x)\quad \text{(由式(16.37))} \tag{16.45} \end{align} VTπ(x)=aAπ(x,a)QTπ(x,a)(由式(16.17)aAπ(x,a)QTπ(x,a)(由式(16.35)=QTπ(x,a)aAπ(x,a)=QTπ(x,a)=xAPxxa(T1Rxxa+TT1VT1π(x))(由【西瓜书式(16.10)】)xAPxxa(T1Rxxa+TT1VTπ(x))(由式(16.21)=VTπ(x)(由式(16.37)(16.43)(16.44)(16.45)
当式(16.44)的“ ≈ \approx ”变为“ ⩾ \geqslant ”且“压过”式(16.43)的“ ⩽ \leqslant ”时,有 V T π ( x ) ⩾ V T π ′ ( x ) V_{T}^{\pi }(x)\geqslant V_{T}^{\pi '}(x) VTπ(x)VTπ(x),即这时 V T π ( x ) ⩽ V T π ′ ( x ) V_{T}^{\pi }(x)\leqslant V_{T}^{\pi '}(x) VTπ(x)VTπ(x)不成立,如 ( V T π ( x ) = )   1.001 ⩽ 1.002 ≈ 1   ( = V T π ′ ( x ) ) (V_{T}^{\pi }(x)=)\ 1.001\leqslant 1.002\approx 1\ (=V_{T}^{\pi '}(x)) (VTπ(x)=) 1.0011.0021 (=VTπ(x)),这说明单调递增性有些“勉强”。 但在绝大多数情况下,式(16.43)的“ ⩽ \leqslant ”会“压过”式(16.44)的“ ≈ \approx ”的,故可视为单调递增性成立,从而可应用“单调有界序列必收敛(有极限)”。

本文为原创,您可以:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值