本篇详细推导出值函数的递归等式,称为贝尔曼方程(Bellman等式)。
有模型:
设马尔可夫决策过程(MDP)的四元组
E
=
⟨
X
,
A
,
P
,
R
⟩
E=\langle X,A,P,R\rangle
E=⟨X,A,P,R⟩模型已知。 即机器对四元组已知或通过模拟近似已知。
迭代式
为聚焦,我们将16.1 任务与奖赏图16.3 中的表达调整为图16.5 。
再在图16.5 中再添上“奖赏”相关的内容(已知),即为图16.6 。
图16.6 中,
R
x
→
x
′
a
R^a_{x\rightarrow x'}
Rx→x′a是指“单步”(
x
→
a
x
′
x\mathop{\rightarrow}\limits^a x'
x→ax′)所获得的奖赏。 若这一步是在轨线的第
t
t
t步,为强调这一特点,引入记号
r
t
=
R
x
→
x
′
a
\begin{align} r_t=R^a_{x\rightarrow x'} \tag{16.5} \end{align}
rt=Rx→x′a(16.5)
下面重点说明 Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a)与 V π ( x ) V^{\pi }(x) Vπ(x):
- 它俩都是指在遵循策略 π ( x ) {\pi }(x) π(x)下的“累积奖赏”,其区别正如图16.6 中所示, V π ( x ) V^{\pi }(x) Vπ(x)表示从 x x x出发,完成任务所获得的“累积奖赏”;而 Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a)表示从 x x x出发但途径 a a a,完成任务所获得的“累积奖赏”。
- 将它们称为“值函数”,图中, V π ( x ) V^{\pi }(x) Vπ(x)位于状态 x x x处,故称为“状态值函数”, Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a)“状态-动作” ( x , a ) (x,a) (x,a)处,故称为“状态-动作值函数”。
- 它俩的计算,根据情况对应于第1节的式(16.2)、式(16.3)、式(16.4)之一。 分为“
T
T
T型累积”和“
γ
\gamma
γ型累积”,对其添加下标表示类型。
注1:这里“ T T T型累积”实际上是有限步的“步均值”,其实,去掉常数因子 1 T \frac{1}{T} T1变为真正的“累积均值”理论是一样的;“ γ \gamma γ型累积”是无限步的“步折扣累积”。
注2:“ T T T型累积”即有限步完成任务,易举出例子,如,“将步进小车开到指定的位置”;“ γ \gamma γ型累积”即无限步完成任务,不易举出例子,如,“赌徒利用 K-摇劈赌博机进行赌博”就是一例(设以赌局作为时间步,且钱有时间价值,即有折扣率 γ \gamma γ),他可以无限玩下去(假定本金不成问题,为了赚更多,他需要摸清赌博机的各参数,如,分布的期望值),当然,他可能提前终止(这时,他没有完成任务,有限步只能得出参数的估计值)。 - 上标 π \pi π表示决策过程中所采取的策略,即 π ( x , a ) \pi(x,a) π(x,a),通常是优化的目标。
完成任务的每一步的“足迹”形成序列(称为链或轨线): x 0 , x 1 , x 2 , ⋯ , x T , ⋯ x_0,x_1,x_2,\cdots ,x_T,\cdots x0,x1,x2,⋯,xT,⋯,如图16.7 所示,研究递推的技巧是考虑在轨线的左端递减,而不是考虑右端递减,这是由于右端为完成任务的终点。
i.对于“
γ
\gamma
γ型累积”,即
E
x
0
,
x
1
,
⋯
(
无限步完成任务
)
=
E
x
0
→
x
1
E
x
1
,
x
2
,
⋯
(
第一步奖赏
+
无限步完成任务
)
=
E
x
0
→
x
1
(
第一步奖赏
+
E
x
1
,
x
2
,
⋯
(
无限步完成任务
)
)
\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots }(\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{第一步奖赏}+\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{无限步完成任务})\right) \tag{16.6} \end{align}
x0,x1,⋯E(无限步完成任务)=x0→x1Ex1,x2,⋯E(第一步奖赏+无限步完成任务)=x0→x1E(第一步奖赏+x1,x2,⋯E(无限步完成任务))(16.6)
ii.对于“
T
T
T型累积”,即
E
x
0
,
x
1
,
⋯
,
x
T
(
T
步完成任务
)
=
E
x
0
→
x
1
E
x
1
,
x
2
,
⋯
,
x
T
(
第一步奖赏
+
T
−
1
步完成任务
)
=
E
x
0
→
x
1
(
第一步奖赏
+
E
x
1
,
x
2
,
⋯
,
x
T
(
T
−
1
步完成任务
)
)
\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{第一步奖赏}+\text{$T-1$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{$T-1$步完成任务})\right) \tag{16.7} \end{align}
x0,x1,⋯,xTE(T步完成任务)=x0→x1Ex1,x2,⋯,xTE(第一步奖赏+T−1步完成任务)=x0→x1E(第一步奖赏+x1,x2,⋯,xTE(T−1步完成任务))(16.7)
注:
T
−
1
T-1
T−1步完成任务的起点为
x
1
x_1
x1,由马尔可夫链的性质知,状态
x
0
x_0
x0并不对
x
1
x_1
x1后的动作决策产生影响,即(1)过去对未来不产生影响(
x
0
x_0
x0只影响
x
1
x_1
x1,不影响其后);(2)未来对当前不产生影响(不存在逆影响),体现在式子的可“分解”:
E
x
0
,
x
1
,
⋯
,
x
T
=
E
x
0
→
x
1
E
x
1
,
x
2
,
⋯
,
x
T
\mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }=\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }
x0,x1,⋯,xTE=x0→x1Ex1,x2,⋯,xTE。
错误的递推式
E
x
0
,
x
1
,
⋯
,
x
T
(
T
步完成任务
)
=
E
x
0
,
x
1
,
⋯
,
x
T
(
T
−
1
步完成任务
+
最后一步奖赏
)
=
E
x
0
,
x
1
,
⋯
,
x
T
−
1
(
T
−
1
步完成任务
)
+
E
x
T
−
1
→
x
T
(
最后一步奖赏
)
\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T-1$步完成任务}+\text{最后一步奖赏})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_{T-1}}(\text{$T-1$步完成任务})+\mathop{\mathbb{E} }\limits_{x_{T-1}\to x_T}(\text{最后一步奖赏}) \tag{16.8} \end{align}
x0,x1,⋯,xTE(T步完成任务)=x0,x1,⋯,xTE(T−1步完成任务+最后一步奖赏)=x0,x1,⋯,xT−1E(T−1步完成任务)+xT−1→xTE(最后一步奖赏)(16.8)
第一个等式中定义的是“
x
T
=
完成态
x_{T}=\text{完成态}
xT=完成态”,起点为
x
0
x_0
x0,第二个等式中又定义“
x
T
−
1
=
完成态
x_{T-1}=\text{完成态}
xT−1=完成态”,起点也为
x
0
x_0
x0,因此是错误的。这类常见错误是在递推过程中将“完成态”作为动点(既可为
x
T
x_{T}
xT,又可为
x
T
−
1
x_{T-1}
xT−1),而将“起点”作为“不动点”。
严格来讲,“
T
T
T型”模型中统一规定了
{
终点
x
T
=
完成态
最后一步
x
T
−
1
→
x
T
“强制”完成任务
直接定义了最后一步的
r
T
\begin{align} \begin{cases} \text{终点$x_T=$完成态} \\ \text{最后一步${x_{T-1}\to x_T}$“强制”完成任务} \\ \text{直接定义了最后一步的$r_T$} \\ \end{cases} \tag{16.9} \end{align}
⎩
⎨
⎧终点xT=完成态最后一步xT−1→xT“强制”完成任务直接定义了最后一步的rT(16.9)
其中,“完成态”定义于系统外且唯一的不动点(地平线),由“强制”性知,最后一步
x
T
−
1
→
x
T
x_{T-1}\to x_T
xT−1→xT中决策
π
\pi
π和转移概率
P
P
P均失效(故可将“完成态”放到系统外),因此只需单独定义这一步的值
r
T
r_T
rT,对所有
x
x
x都考虑作为
x
T
−
1
x_{T-1}
xT−1情况,这时,
r
T
r_T
rT转化为只与
x
x
x有关,记为
r
(
x
)
r(x)
r(x),式(16.9)变为
{
x
→
完成态
定义了
r
(
x
)
\begin{align} \begin{cases} x\to\, \text{完成态} \\ \text{定义了$r(x)$} \\ \end{cases} \tag{16.10} \end{align}
{x→完成态定义了r(x)(16.10)
即“
x
→
完成态
x\to\, \text{完成态}
x→完成态”这一步不用决策,而是“强制”地到达,其“强制”成本的负值(或倒数)就作为奖赏
r
(
x
)
r(x)
r(x),例如,以“步进小车开到指定的位置”作为任务,以其位置作为状态,当小车已在指定位置时,成本为0;当小车与指定的位置有一格的距离时,一步到达的成本为1;当小车与指定的位置有二格的距离时,一步到达的成本为2;
⋯
\cdots
⋯。 也就是说,根据环境对所有状态定义一遍成本(或奖赏)。
现在考虑“ T T T型”模型轨线(足迹序列)的“步均奖赏”,设第 t t t步的奖赏 r t r_t rt为 x t − 1 → x t x_{t-1}\to x_t xt−1→xt的一步奖赏,在策略 π \pi π下,起点为 x x x链长为 T T T步,“步均奖赏”为 V T π ( x ) V^{\pi}_T(x) VTπ(x)。
先看一步完成:“
x
T
−
1
→
x
T
{x_{T-1}\to x_T}
xT−1→xT”,根据式(16.10)有
V
1
π
(
x
)
=
r
(
x
)
\begin{align} V^{\pi}_1(x)=r(x) \tag{16.11} \end{align}
V1π(x)=r(x)(16.11)
这也可以作为状态-值函数改进序列
V
s
π
(
x
)
V_s^{\pi}(x)
Vsπ(x)的初始化。
再看起点为
x
0
=
x
x_0=x
x0=x长度为
T
T
T的轨线的“步均奖赏”情况
V
T
π
(
x
)
=
E
π
(
1
T
[
∑
t
=
1
T
r
t
]
x
0
=
x
)
=
E
x
0
,
x
1
,
⋯
,
x
T
(
1
T
[
r
1
(
x
0
)
+
∑
t
=
2
T
r
t
]
x
0
=
x
)
=
E
x
0
→
x
1
E
x
1
,
x
2
,
⋯
,
x
T
(
1
T
r
1
(
x
0
)
+
1
T
∑
t
=
2
T
r
t
)
x
0
=
x
=
E
x
0
→
x
1
(
1
T
E
x
1
,
⋯
,
x
T
r
1
(
x
0
)
+
T
−
1
T
E
x
1
,
x
2
,
⋯
,
x
T
(
1
T
−
1
[
∑
t
=
2
T
r
t
]
x
1
)
)
(
x
0
=
x
)
=
E
x
0
→
x
1
(
1
T
r
1
(
x
0
)
+
T
−
1
T
V
T
−
1
π
(
x
1
)
)
(
x
0
=
x
)
=
E
x
0
→
a
x
′
(
1
T
r
1
(
x
0
)
+
T
−
1
T
V
T
−
1
π
(
x
′
)
)
(
x
0
=
x
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
1
T
R
x
→
x
′
a
+
T
−
1
T
V
T
−
1
π
(
x
′
)
)
\begin{align} V^{\pi}_T(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}[\sum_{t=1}^Tr_t]_{x_0=x}\right) \tag{16.12} \\ & =\mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }\left(\frac{1}{T}[r_1(x_0)+\sum_{t=2}^Tr_t]_{x_0=x}\right)\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T}r_1(x_0)+\frac{1}{T}\sum_{t=2}^Tr_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}\mathop{\mathbb{E} }\limits_{x_1,\cdots,x_T }r_1(x_0)+\frac{{T-1}}{T}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T-1}[\sum_{t=2}^Tr_t]_{x_1}\right)\right)_{(x_0=x)}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x_1)\right)_{(x_0=x)} \tag{16.13} \\ & =\mathop{\mathbb{E} }\limits_{x_0\mathop{\to }\limits_{a} x' }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right)_{(x_0=x)}\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\to x'}+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right) \tag{16.14} \end{align}
VTπ(x)=πE(T1[t=1∑Trt]x0=x)=x0,x1,⋯,xTE(T1[r1(x0)+t=2∑Trt]x0=x)=x0→x1Ex1,x2,⋯,xTE(T1r1(x0)+T1t=2∑Trt)x0=x=x0→x1E(T1x1,⋯,xTEr1(x0)+TT−1x1,x2,⋯,xTE(T−11[t=2∑Trt]x1))(x0=x)=x0→x1E(T1r1(x0)+TT−1VT−1π(x1))(x0=x)=x0a→x′E(T1r1(x0)+TT−1VT−1π(x′))(x0=x)=a∈A∑π(x,a)x′∈A∑Px→x′a(T1Rx→x′a+TT−1VT−1π(x′))(16.12)(16.13)(16.14)
其中,式(16.12)即为【西瓜书式(16.5)第一式】,式(16.14)即为【西瓜书式(16.7)】。
可以按该思路推导 V γ π ( x ) V^{\pi }_{\gamma}(x) Vγπ(x)的递推式【西瓜书式(16.8)】,为扩展思路,这里我们再以一种新方法对 V γ π ( x ) V^{\pi }_{\gamma}(x) Vγπ(x)的递推式进行推导。
对于固定的策略
π
\pi
π,每个状态
x
x
x都有对应的“状态值函数”的值
V
π
(
x
)
V^{\pi}(x)
Vπ(x),这些值是离散的,即有集合
{
V
π
(
x
)
}
x
∈
X
\{V^{\pi}(x)\}_{x\in X}
{Vπ(x)}x∈X,对应于“足迹”序列,也有“状态值函数”的值序列,即图16.6 对应有图16.8 。
图16.8 中,由状态转移( x → x ′ x\rightarrow x' x→x′)的两阶段概率可以得到 V π ( x ) V^{\pi}(x) Vπ(x)转移至 V π ( x ′ ) V^{\pi}(x') Vπ(x′)的概率为 π ( x , a ) × P x → x ′ a \pi (x,a)\times P^a_{x\rightarrow x'} π(x,a)×Px→x′a。 因此,可视为“状态值函数”值 { V π ( x ) } x ∈ X \{V^{\pi}(x)\}_{x\in X} {Vπ(x)}x∈X间的转移。 故此,可将图16.8 简化为图16.9 。
“状态值函数” V π ( x ) V^{\pi}(x) Vπ(x)定义为状态 x x x处的“累积奖赏”,这里是形式化的思考,如果不打折的话,无限步的"和"为无穷大,没有意义;另外,式(16.7)是反向累积,即在 x x x处完成工作的报酬为在 x ′ x' x′处完成工作的报酬加上多了第一步的工作( x → x ′ x\rightarrow x' x→x′)的报酬。
即有
V
π
(
x
)
=
E
(
x
→
a
)
×
(
a
→
x
′
)
(
R
x
→
x
′
a
+
V
π
(
x
′
)
)
=
∑
a
,
x
′
π
(
x
,
a
)
×
P
x
→
x
′
a
(
R
x
→
x
′
a
+
V
π
(
x
′
)
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
R
x
→
x
′
a
+
V
π
(
x
′
)
)
\begin{align} V^{\pi}(x) & = \mathop{\mathbb{E} }\limits_{(x\to a)\times (a\to x')}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a,x'}\pi (x,a)\times P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x')) \tag{16.15} \end{align}
Vπ(x)=(x→a)×(a→x′)E(Rx→x′a+Vπ(x′))=a,x′∑π(x,a)×Px→x′a(Rx→x′a+Vπ(x′))=a∈A∑π(x,a)x′∈A∑Px→x′a(Rx→x′a+Vπ(x′))(16.15)
从
x
x
x出发比从
x
′
x'
x′出发多了一步(
x
→
x
′
x\rightarrow x'
x→x′),若采用“
γ
\gamma
γ折扣累积奖赏”,则由16.1 任务与奖赏图(16.4)将
V
π
(
x
′
)
V^{\pi}(x')
Vπ(x′)折为现值
V
π
(
x
′
)
γ
1
V^{\pi}(x')\gamma ^1
Vπ(x′)γ1,故式(16.15)调整为式(16.16)
V
γ
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
A
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
V
γ
π
(
x
′
)
)
\begin{align} V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.16} \end{align}
Vγπ(x)=a∈A∑π(x,a)x′∈A∑Px→x′a(Rx→x′a+γVγπ(x′))(16.16)
这即为【西瓜书式(16.8)】,它是关于
x
x
x的函数,该式中
x
x
x为外部给定的(言下之意:
x
x
x在式子外变化(自变量),而
x
′
x'
x′在式中变化并被“和号”消去(局部变量))。
【西瓜书式(16.7)(16.8)】是值函数的递归等式,称为贝尔曼方程(Bellman等式)。
注:Bellman方程通常指离散时间最优化问题的动态规划方程,借助数学的不动点理论,可以严格地证明Bellman方程(簇)中存在唯一的最优方程,即【西瓜书 (16.13)】【西瓜书 (16.15)】,另外,对于连续时间最优化问题,有相应的HJB方程(Hamilton-Jacobi-Bellman Equation)。
由图16.6 有
V
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
Q
π
(
x
,
a
)
\begin{align} V^{\pi}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}(x,a) \tag{16.17} \end{align}
Vπ(x)=a∈A∑π(x,a)Qπ(x,a)(16.17)
式(16.17)中取
T
T
T型和
γ
\gamma
γ型,则有
{
V
T
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
Q
T
π
(
x
,
a
)
V
γ
π
(
x
)
=
∑
a
∈
A
π
(
x
,
a
)
Q
γ
π
(
x
,
a
)
\begin{align} \begin{cases} V^{\pi}_{T}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a) \\ V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a) \\ \end{cases} \tag{16.18} \end{align}
{VTπ(x)Vγπ(x)=∑a∈Aπ(x,a)QTπ(x,a)=∑a∈Aπ(x,a)Qγπ(x,a)(16.18)
比较式(16.18)与式(16.16),得
Q
γ
π
(
x
,
a
)
=
∑
x
′
∈
A
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
V
γ
π
(
x
′
)
)
\begin{align} Q^{\pi}_{\gamma}(x,a) & = \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.19} \end{align}
Qγπ(x,a)=x′∈A∑Px→x′a(Rx→x′a+γVγπ(x′))(16.19)
这即【西瓜书式(16.10)的第二式】,同理可得【西瓜书式(16.10)的第一式】,即由状态值函数的迭代式得到了状态-动作值函数的迭代式【西瓜书式(16.10)】。
固定策略
π
\pi
π下,对于每一个状态
x
x
x只有一个
V
γ
π
(
x
)
V^{\pi}_{\gamma}(x)
Vγπ(x),因为,
1
+
∞
=
∞
1+\infty =\infty
1+∞=∞,但却有许多
V
T
π
(
x
)
V^{\pi}_{T}(x)
VTπ(x):对每一个
T
T
T都有一个
V
T
π
(
x
)
V^{\pi}_{T}(x)
VTπ(x)。
T
T
T比
T
−
1
T-1
T−1多一步,感觉
V
T
π
(
x
)
⩾
V
T
−
1
π
(
x
)
V^{\pi}_{T}(x)\geqslant V^{\pi}_{T-1}(x)
VTπ(x)⩾VT−1π(x),但这是不对的(并不是按“多劳多得”,而是按“完成任务”,故它俩应得奖赏近似),因为:
V
T
π
(
x
)
−
V
T
−
1
π
(
x
)
=
E
π
(
1
T
∑
t
=
1
T
r
t
−
1
T
−
1
∑
t
=
1
T
−
1
r
t
)
x
0
=
x
=
E
π
(
(
1
T
−
1
T
−
1
)
∑
t
=
1
T
−
1
r
t
+
1
T
r
T
)
x
0
=
x
=
E
π
(
−
1
T
(
T
−
1
)
∑
t
=
1
T
−
1
r
t
+
1
T
r
T
)
x
0
=
x
=
1
T
E
π
(
−
1
(
T
−
1
)
∑
t
=
1
T
−
1
r
t
+
r
T
)
x
0
=
x
=
1
T
(
−
1
(
T
−
1
)
∑
t
=
1
T
−
1
E
π
r
t
+
E
x
T
r
T
)
x
0
=
x
=
1
T
(
−
r
ˉ
1
→
(
T
−
1
)
+
r
ˉ
T
)
x
0
=
x
(头上戴帽表示均值)
≈
1
T
×
0
=
0
\begin{align} V^{\pi}_T(x)-V^{\pi}_{T-1}(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}\sum_{t=1}^Tr_t-\frac{1}{T-1}\sum_{t=1}^{T-1}r_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\left(\frac{1}{T}-\frac{1}{T-1}\right)\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{T(T-1)}\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}r_t+r_T\right)_{x_0=x} \tag{16.20} \\ & =\frac{1}{T}\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}\mathop{\mathbb{E} }\limits_{\pi }r_t+\mathop{\mathbb{E} }\limits_{x_T }r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\left(-\bar {r}_{1\to (T-1)}+\bar {r}_{T}\right)_{x_0=x}\quad \text {(头上戴帽表示均值)}\notag \\ & \approx \frac{1}{T}\times 0\notag \\ & =0 \tag{16.21} \end{align}
VTπ(x)−VT−1π(x)=πE(T1t=1∑Trt−T−11t=1∑T−1rt)x0=x=πE((T1−T−11)t=1∑T−1rt+T1rT)x0=x=πE(T(T−1)−1t=1∑T−1rt+T1rT)x0=x=T1πE((T−1)−1t=1∑T−1rt+rT)x0=x=T1((T−1)−1t=1∑T−1πErt+xTErT)x0=x=T1(−rˉ1→(T−1)+rˉT)x0=x(头上戴帽表示均值)≈T1×0=0(16.20)(16.21)
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权