有模型策略估值算法可得到所有状态在给定策略下的值,这样就可以对多个策略进行比较选优,不断地调整策略,使其达到最优。
方法:构造出“勉强”的单调递增有界序列(对应策略序列),利用单调递增有界序列必收敛的定理进行推导。
策略改进
上篇16.4 有模型策略估值算法中用策略估值算法可得到所有状态 x x x在策略 π \pi π下的 { V π ( x ) } x ∈ A \{V^{\pi }(x)\}_{x\in A} {Vπ(x)}x∈A,就可以对多个策略进行比较选优,下面讨论最优策略算法,即调整策略 π \pi π,使其达到最优。
最优策略的目标是“状态值的均值”(奖赏均值)最大化
max
π
E
x
∈
X
V
π
(
x
)
\begin{align} \mathop{\max}\limits_{\pi}\mathop{\mathbb{E} }\limits_{x\in X}V^{\pi }(x) \tag{16.25} \end{align}
πmaxx∈XEVπ(x)(16.25)
在状态有限且各状态等概率地作为出发点
x
0
x_0
x0的条件下,式(16.25)化为
max
π
1
∣
X
∣
∑
x
∈
X
V
π
(
x
)
\begin{align} \mathop{\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x) \tag{16.26} \end{align}
πmax∣X∣1x∈X∑Vπ(x)(16.26)
这时,最优策略为
π
∗
=
arg
max
π
1
∣
X
∣
∑
x
∈
X
V
π
(
x
)
=
arg
max
π
∑
x
∈
X
V
π
(
x
)
\begin{align} \pi ^{*} & =\mathop{\arg\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x)\notag \\ & =\mathop{\arg\max}\limits_{\pi}\sum_{x\in X}V^{\pi }(x) \tag{16.27} \end{align}
π∗=πargmax∣X∣1x∈X∑Vπ(x)=πargmaxx∈X∑Vπ(x)(16.27)
由于可能会有等值情况(类似于投票时,出现相同票数),故式(16.27)的解
π
∗
\pi ^{*}
π∗可以不唯一。
将
π
∗
\pi ^{*}
π∗取代式(16.17)中的
π
\pi
π,则有
V
π
∗
(
x
)
=
∑
a
∈
A
π
∗
(
x
,
a
)
Q
π
∗
(
x
,
a
)
⩽
∑
a
∈
A
π
∗
(
x
,
a
)
Q
π
∗
(
x
,
a
∗
)
(取
a
∗
=
arg
max
a
∈
A
Q
π
∗
(
x
,
a
)
)
=
Q
π
∗
(
x
,
a
∗
)
∑
a
∈
A
π
∗
(
x
,
a
)
=
Q
π
∗
(
x
,
a
∗
)
=
max
a
∈
A
Q
π
∗
(
x
,
a
)
\begin{align} V^{\pi ^{*}}(x) & =\sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a)\notag \\ & \leqslant \sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a^*)\quad \text{(取$a^*=\mathop{\arg\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a)$)} \tag{16.28} \\ & = Q^{\pi ^{*}}(x,a^*)\sum_{a\in A}\pi ^{*}(x,a)\notag \\ & = Q^{\pi ^{*}}(x,a^*)\notag \\ & = \mathop{\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a) \tag{16.29} \end{align}
Vπ∗(x)=a∈A∑π∗(x,a)Qπ∗(x,a)⩽a∈A∑π∗(x,a)Qπ∗(x,a∗)(取a∗=a∈AargmaxQπ∗(x,a))=Qπ∗(x,a∗)a∈A∑π∗(x,a)=Qπ∗(x,a∗)=a∈AmaxQπ∗(x,a)(16.28)(16.29)
由于最优
V
π
∗
(
x
)
V^{\pi ^{*}}(x)
Vπ∗(x)已经达到了最大值,故不等式(16.28)实为等式(否则右则更优),将上标“
π
∗
{\pi ^{*}}
π∗”简记为“
∗
{*}
∗”,则有
V
∗
(
x
)
=
max
a
∈
A
Q
∗
(
x
,
a
)
\begin{align} V^{{*}}(x) & = \mathop{\max}\limits_{a\in A}Q^{{*}}(x,a) \tag{16.30} \end{align}
V∗(x)=a∈AmaxQ∗(x,a)(16.30)
将式(16.30)代入【西瓜书式(16.10)】右侧(用 π ∗ \pi ^{*} π∗取代 π \pi π后),则得最优状态-动作值函数等式【西瓜书式(16.15)】。 反过来,将【西瓜书式(16.10)】(用 π ∗ \pi ^{*} π∗取代 π \pi π后)代入式(16.30)右侧,则得最优状态值函数等式【西瓜书式(16.13)】。
最优值函数的等式(【西瓜书式(16.13)】【西瓜书式(16.15)】)称为最优Bellman等式。 显然,给定 π ∗ \pi ^{*} π∗后,最优值函数是唯一确定的,而反之,式(16.27)告诉我们 π ∗ \pi ^{*} π∗可能不唯一。
最优Bellman等式的另一个推导思路:
假定已计算出所有点处的步数为
T
−
1
T-1
T−1的最优值
V
T
−
1
∗
(
x
′
)
V^*_{T-1}(x')
VT−1∗(x′),则由【西瓜书式(16.7)】有
V
T
∗
(
x
)
=
∑
a
∈
A
π
∗
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
∗
(
x
′
)
)
⩽
∑
a
∈
A
π
∗
(
x
,
a
)
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
∗
(
x
′
)
)
=
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
∗
(
x
′
)
)
∑
a
∈
A
π
∗
(
x
,
a
)
=
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
∗
(
x
′
)
)
\begin{align} V^*_T(x) & =\sum_{a\in A}\pi ^*(x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi ^*(x,a) \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\sum_{a\in A}\pi ^*(x,a) \notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right) \tag{16.31} \end{align}
VT∗(x)=a∈A∑π∗(x,a)x′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1∗(x′))⩽a∈A∑π∗(x,a)a∈Amaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1∗(x′))=a∈Amaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1∗(x′))a∈A∑π∗(x,a)=a∈Amaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1∗(x′))(16.31)
再由
V
T
∗
(
x
)
V^*_T(x)
VT∗(x)的最优性(最大)知,式(16.31)应取等号,这即证【西瓜书式(16.13)】第一式;同样,由【西瓜书式(16.8)】,从最优值
V
γ
,
+
∞
∗
(
x
′
)
V^*_{\gamma ,+\infty }(x')
Vγ,+∞∗(x′)递推出最优值
V
γ
,
+
∞
+
1
∗
(
x
)
V^*_{\gamma ,+\infty+1 }(x)
Vγ,+∞+1∗(x),类似即证【西瓜书式(16.13)】第二式。
最优Bellman等式只是:在已知最优策略
π
∗
\pi ^{*}
π∗的情况下,求最优值函数
V
∗
V^*
V∗和
Q
∗
Q^*
Q∗的递推方法。 那么,如何利用它求最优策略
π
∗
\pi ^{*}
π∗?方法就是:把最优Bellman等式作为检验策略是否最优的判别式,即最优策略应满足
V
T
π
∗
(
x
)
=
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
π
∗
(
x
′
)
)
\begin{align} V^{\pi ^*}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi ^*}_{T-1}(x')\right) \tag{16.32} \end{align}
VTπ∗(x)=a∈Amaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1π∗(x′))(16.32)
然后,参照式(16.32)的结构,构造一个关于策略改进的递推式(
π
→
π
′
\pi \to \pi '
π→π′)
V
T
π
′
(
x
)
=
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
π
(
x
′
)
)
=
∑
x
′
∈
A
P
x
→
x
′
a
′
(
1
T
R
x
→
x
′
a
′
+
T
−
1
T
V
T
−
1
π
(
x
′
)
)
\begin{align} V^{\pi '}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right)\notag \\ & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.33} \end{align}
VTπ′(x)=a∈Amaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1π(x′))=x′∈A∑Px→x′a′(T1Rx→x′a′+TT−1VT−1π(x′))(16.33)
其中,
a
′
=
π
′
(
x
)
a'=\pi '(x)
a′=π′(x),改善
π
′
(
x
)
=
arg
max
a
∈
A
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
π
(
x
′
)
)
\begin{align} \pi '(x) & =\mathop{\arg\max}\limits_{a\in A}\sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.34} \end{align}
π′(x)=a∈Aargmaxx′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1π(x′))(16.34)
由【西瓜书式(16.10)】,式(16.34)变为
a
′
=
π
′
(
x
)
=
arg
max
a
∈
A
Q
π
(
x
,
a
)
\begin{align} a'=\pi '(x)=\mathop{\arg\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.35} \end{align}
a′=π′(x)=a∈AargmaxQπ(x,a)(16.35)
其中,
Q
Q
Q为
Q
T
Q_T
QT或
Q
γ
Q_{\gamma }
Qγ(对应于
V
T
V_T
VT和
V
γ
V_{\gamma }
Vγ)。
在此新策略
π
′
\pi '
π′下,16.3 有模型迭代式的详细推导图16.6 变为图16.10 ,其 中保留权重最大的一支(
x
→
a
′
x\to a'
x→a′),删除其他分枝(类似于剪枝)。
由此可知,基于已知的随机策略
π
\pi
π(16.3 有模型迭代式的详细推导图16.6 )的改进策略
π
′
\pi '
π′(图16.10 )是确定性策略。
即这时相当于16.3 有模型迭代式的详细推导图16.6 中有
π
′
(
x
,
a
)
=
{
1
,
(
a
=
a
′
)
0
,
(
a
≠
a
′
)
\begin{align} \pi '(x,a)= \begin{cases} 1,\quad \text{($a=a'$)} \\ 0,\quad \text{($a\neq a'$)} \end{cases} \tag{16.36} \end{align}
π′(x,a)={1,(a=a′)0,(a=a′)(16.36)
其中,
a
′
a'
a′由式(16.35)定义。
当
T
T
T较大时,从
x
′
x'
x′出发的
T
T
T步值
V
T
π
(
x
′
)
V^{\pi }_{T}(x')
VTπ(x′)与
T
−
1
T-1
T−1步值
V
T
−
1
π
(
x
′
)
V^{\pi }_{T-1}(x')
VT−1π(x′)近似。观察式(16.33):
a
′
a'
a′由式(16.35)中
x
x
x确定,
x
′
x'
x′由“和”消去(即它为局部变量),
x
x
x为自变量,包含两个递进(
T
−
1
→
T
T-1\to T
T−1→T,
π
→
π
′
\pi \to \pi '
π→π′),因此,应消去递进(
T
−
1
→
T
T-1\to T
T−1→T),保留需要的递进(
π
→
π
′
\pi \to \pi '
π→π′),由式(16.21)知取近似合理。
因此,式(16.33)调整为
V
T
π
′
(
x
)
=
∑
x
′
∈
A
P
x
→
x
′
a
′
(
1
T
R
x
→
x
′
a
′
+
T
−
1
T
V
T
π
(
x
′
)
)
\begin{align} V_T^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V_T^{\pi }(x')\right) \tag{16.37} \end{align}
VTπ′(x)=x′∈A∑Px→x′a′(T1Rx→x′a′+TT−1VTπ(x′))(16.37)
这就是一个“
T
T
T型累积”的策略改进的递推式(
π
→
π
′
\pi \to \pi '
π→π′)。
对应的“
γ
\gamma
γ型累积”的策略改进的递推式为
V
γ
π
′
(
x
)
=
∑
x
′
∈
A
P
x
→
x
′
a
′
(
R
x
→
x
′
a
′
+
γ
V
γ
π
(
x
′
)
)
\begin{align} V_{\gamma}^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}(R^{a'}_{x\rightarrow x'}+{\gamma}V_{\gamma}^{\pi }(x')) \tag{16.38} \end{align}
Vγπ′(x)=x′∈A∑Px→x′a′(Rx→x′a′+γVγπ(x′))(16.38)
策略改进序列如图16.11 所示。
下面我们证明单调性
V
γ
π
(
x
)
⩽
V
γ
π
′
(
x
)
V_{\gamma}^{\pi }(x)\leqslant V_{\gamma}^{\pi '}(x)
Vγπ(x)⩽Vγπ′(x):
V
γ
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
Q
γ
π
(
x
,
a
)
(由式(16.17))
⩽
∑
a
∈
A
π
(
x
,
a
)
Q
γ
π
(
x
,
a
′
)
(由式(16.35))
=
Q
γ
π
(
x
,
a
′
)
∑
a
∈
A
π
(
x
,
a
)
=
Q
γ
π
(
x
,
a
′
)
=
∑
x
′
∈
A
P
x
→
x
′
a
′
(
R
x
→
x
′
a
′
+
γ
V
γ
π
(
x
′
)
)
(由【西瓜书式(16.10)】)
=
V
γ
π
′
(
x
)
(由式(16.38))
\begin{align} V_{\gamma}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a)\quad \text{(由式(16.17))}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a')\quad \text{(由式(16.35))}\notag \\ & =Q^{\pi}_{\gamma}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{\gamma}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(R^{a'}_{x\rightarrow x'}+{\gamma}V^{\pi }_{\gamma}(x')\right) \quad \text{(由【西瓜书式(16.10)】)}\notag \\ & =V_{\gamma}^{\pi '}(x)\quad \text{(由式(16.38))} \tag{16.39} \end{align}
Vγπ(x)=a∈A∑π(x,a)Qγπ(x,a)(由式(16.17))⩽a∈A∑π(x,a)Qγπ(x,a′)(由式(16.35))=Qγπ(x,a′)a∈A∑π(x,a)=Qγπ(x,a′)=x′∈A∑Px→x′a′(Rx→x′a′+γVγπ(x′))(由【西瓜书式(16.10)】)=Vγπ′(x)(由式(16.38))(16.39)
由式(16.39)知,值函数序列(右上角编号对应于策略
π
\pi
π的改进序列
π
1
,
π
2
,
π
3
,
⋯
\pi_1, \pi_2,\pi_3,\cdots
π1,π2,π3,⋯)
V
γ
1
(
x
)
,
V
γ
2
(
x
)
,
V
γ
3
(
x
)
,
⋯
\begin{align} V_{\gamma }^{1}(x),V_{\gamma }^{2}(x),V_{\gamma }^{3}(x),\cdots \tag{16.40} \end{align}
Vγ1(x),Vγ2(x),Vγ3(x),⋯(16.40)
是单调递增。
设
R
max
=
max
x
∈
X
(
R
x
→
x
′
a
)
R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'})
Rmax=x∈Xmax(Rx→x′a),有
V
γ
π
(
x
)
=
E
π
∑
t
=
0
∞
γ
t
r
t
+
1
=
E
π
∑
t
=
0
∞
γ
t
(
∑
a
∈
A
π
(
x
t
,
a
)
∑
x
t
+
1
∈
A
P
x
t
→
x
t
+
1
a
R
x
t
→
x
t
+
1
a
)
⩽
E
π
∑
t
=
0
∞
γ
t
(
∑
a
∈
A
π
(
x
t
,
a
)
∑
x
t
+
1
∈
A
P
x
t
→
x
t
+
1
a
R
max
)
=
E
π
∑
t
=
0
∞
γ
t
R
max
=
R
max
∑
t
=
0
∞
γ
t
=
R
max
1
−
γ
\begin{align} V_{\gamma}^{\pi }(x) & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t r_{t+1}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R^a_{x_t\rightarrow x_{t+1}}\right)\notag \\ & \leqslant \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R_{\max}\right)\notag \\ & = \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t R_{\max}\notag \\ & = R_{\max}\sum_{t=0}^\infty \gamma ^t \notag \\ & =\frac{R_{\max}}{1-\gamma} \tag{16.41} \end{align}
Vγπ(x)=πEt=0∑∞γtrt+1=πEt=0∑∞γt
a∈A∑π(xt,a)xt+1∈A∑Pxt→xt+1aRxt→xt+1a
⩽πEt=0∑∞γt
a∈A∑π(xt,a)xt+1∈A∑Pxt→xt+1aRmax
=πEt=0∑∞γtRmax=Rmaxt=0∑∞γt=1−γRmax(16.41)
由式(16.41)知它有界。
数学上已知:单调递增有界序列必收敛,故序列(16.40)收敛,从而对应的策略改进序列也收敛,对式(16.33)中的策略取极限,即得到(满足)最优Bellman等式。
同样,得到 V T π V_{T}^{\pi} VTπ型中策略的改进式也为式(16.35)。
也可以证明它是有界的:
设 R max = max x ∈ X ( R x → x ′ a , V 1 π ( x ) ) R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'},V^{\pi}_1(x)) Rmax=x∈Xmax(Rx→x′a,V1π(x)),则 V 1 π ( x ) ⩽ R max V^{\pi}_1(x)\leqslant R_{\max} V1π(x)⩽Rmax
若假设
V
K
−
1
π
(
x
)
⩽
R
max
V^{\pi}_{K-1}(x)\leqslant R_{\max}
VK−1π(x)⩽Rmax,则
V
K
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
1
K
R
x
→
x
′
a
+
K
−
1
K
V
K
−
1
π
(
x
′
)
)
⩽
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
1
K
R
max
+
K
−
1
K
V
K
−
1
π
(
x
′
)
)
=
1
K
R
max
+
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
K
−
1
K
V
K
−
1
π
(
x
′
)
)
⩽
1
K
R
max
+
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
K
−
1
K
R
max
)
(由数学归纳法假设)
=
1
K
R
max
+
K
−
1
K
R
max
=
R
max
(
x
)
\begin{align} V^{\pi}_K(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R^a_{x\to x'}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R_{\max}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & = \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}R_{\max}\right)\quad \text{(由数学归纳法假设)}\notag \\ & = \frac{1}{K}R_{\max}+\frac{K-1}{K}R_{\max}\notag \\ & = R_{\max}(x) \tag{16.42} \end{align}
VKπ(x)=a∈A∑π(x,a)x′∈A∑Px→x′a(K1Rx→x′a+KK−1VK−1π(x′))⩽a∈A∑π(x,a)x′∈A∑Px→x′a(K1Rmax+KK−1VK−1π(x′))=K1Rmax+a∈A∑π(x,a)x′∈A∑Px→x′a(KK−1VK−1π(x′))⩽K1Rmax+a∈A∑π(x,a)x′∈A∑Px→x′a(KK−1Rmax)(由数学归纳法假设)=K1Rmax+KK−1Rmax=Rmax(x)(16.42)
由式(16.42)及数学归纳法原理,故
V
T
π
(
x
)
V^{\pi}_T(x)
VTπ(x)有界。
然而,改进序列的单调递增性有些“勉强”:
V
T
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
Q
T
π
(
x
,
a
)
(由式(16.17))
⩽
∑
a
∈
A
π
(
x
,
a
)
Q
T
π
(
x
,
a
′
)
(由式(16.35))
=
Q
T
π
(
x
,
a
′
)
∑
a
∈
A
π
(
x
,
a
)
=
Q
T
π
(
x
,
a
′
)
=
∑
x
′
∈
A
P
x
→
x
′
a
′
(
1
T
R
x
→
x
′
a
′
+
T
−
1
T
V
T
−
1
π
′
(
x
′
)
)
(由【西瓜书式(16.10)】)
≈
∑
x
′
∈
A
P
x
→
x
′
a
′
(
1
T
R
x
→
x
′
a
′
+
T
−
1
T
V
T
π
′
(
x
′
)
)
(由式(16.21))
=
V
T
π
′
(
x
)
(由式(16.37))
\begin{align} V_{T}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a)\quad \text{(由式(16.17))}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a')\quad \text{(由式(16.35))} \tag{16.43} \\ & =Q^{\pi}_{T}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{T}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T-1}(x')\right) \quad \text{(由【西瓜书式(16.10)】)}\notag \\ & \approx \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T}(x')\right)\quad \text{(由式(16.21))} \tag{16.44} \\ & =V_{T}^{\pi '}(x)\quad \text{(由式(16.37))} \tag{16.45} \end{align}
VTπ(x)=a∈A∑π(x,a)QTπ(x,a)(由式(16.17))⩽a∈A∑π(x,a)QTπ(x,a′)(由式(16.35))=QTπ(x,a′)a∈A∑π(x,a)=QTπ(x,a′)=x′∈A∑Px→x′a′(T1Rx→x′a′+TT−1VT−1π′(x′))(由【西瓜书式(16.10)】)≈x′∈A∑Px→x′a′(T1Rx→x′a′+TT−1VTπ′(x′))(由式(16.21))=VTπ′(x)(由式(16.37))(16.43)(16.44)(16.45)
当式(16.44)的“
≈
\approx
≈”变为“
⩾
\geqslant
⩾”且“压过”式(16.43)的“
⩽
\leqslant
⩽”时,有
V
T
π
(
x
)
⩾
V
T
π
′
(
x
)
V_{T}^{\pi }(x)\geqslant V_{T}^{\pi '}(x)
VTπ(x)⩾VTπ′(x),即这时
V
T
π
(
x
)
⩽
V
T
π
′
(
x
)
V_{T}^{\pi }(x)\leqslant V_{T}^{\pi '}(x)
VTπ(x)⩽VTπ′(x)不成立,如
(
V
T
π
(
x
)
=
)
1.001
⩽
1.002
≈
1
(
=
V
T
π
′
(
x
)
)
(V_{T}^{\pi }(x)=)\ 1.001\leqslant 1.002\approx 1\ (=V_{T}^{\pi '}(x))
(VTπ(x)=) 1.001⩽1.002≈1 (=VTπ′(x)),这说明单调递增性有些“勉强”。 但在绝大多数情况下,式(16.43)的“
⩽
\leqslant
⩽”会“压过”式(16.44)的“
≈
\approx
≈”的,故可视为单调递增性成立,从而可应用“单调有界序列必收敛(有极限)”。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:16.4 有模型策略估值算法
下一篇:16.6 策略迭代与值迭代算法