(《机器学习》完整版系列)第16章 强化学习——16.3 有模型的迭代式的详细推导(并更正一些错误思路)

本篇详细推导出值函数的递归等式,称为贝尔曼方程(Bellman等式)。

有模型:
设马尔可夫决策过程(MDP)的四元组 E = ⟨ X , A , P , R ⟩ E=\langle X,A,P,R\rangle E=X,A,P,R模型已知。 即机器对四元组已知或通过模拟近似已知。

迭代式

为聚焦,我们将16.1 任务与奖赏图16.3 中的表达调整为图16.5 。
图16.5 一步中的两阶段

图16.5 一步中的两阶段

再在图16.5 中再添上“奖赏”相关的内容(已知),即为图16.6 。

图16.6 MDP中的每一步

图16.6 MDP中的每一步

图16.6 中, R x → x ′ a R^a_{x\rightarrow x'} Rxxa是指“单步”( x → a x ′ x\mathop{\rightarrow}\limits^a x' xax)所获得的奖赏。 若这一步是在轨线的第 t t t步,为强调这一特点,引入记号
r t = R x → x ′ a \begin{align} r_t=R^a_{x\rightarrow x'} \tag{16.5} \end{align} rt=Rxxa(16.5)

下面重点说明 Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a) V π ( x ) V^{\pi }(x) Vπ(x)

  • 它俩都是指在遵循策略 π ( x ) {\pi }(x) π(x)下的“累积奖赏”,其区别正如图16.6 中所示, V π ( x ) V^{\pi }(x) Vπ(x)表示从 x x x出发,完成任务所获得的“累积奖赏”;而 Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a)表示从 x x x出发但途径 a a a,完成任务所获得的“累积奖赏”。
  • 将它们称为“值函数”,图中, V π ( x ) V^{\pi }(x) Vπ(x)位于状态 x x x处,故称为“状态值函数”, Q π ( x , a ) Q^{\pi }(x,a) Qπ(x,a)“状态-动作” ( x , a ) (x,a) (x,a)处,故称为“状态-动作值函数”。
  • 它俩的计算,根据情况对应于第1节的式(16.2)、式(16.3)、式(16.4)之一。 分为“ T T T型累积”和“ γ \gamma γ型累积”,对其添加下标表示类型。
    注1:这里“ T T T型累积”实际上是有限步的“步均值”,其实,去掉常数因子 1 T \frac{1}{T} T1变为真正的“累积均值”理论是一样的;“ γ \gamma γ型累积”是无限步的“步折扣累积”。
    注2:“ T T T型累积”即有限步完成任务,易举出例子,如,“将步进小车开到指定的位置”;“ γ \gamma γ型累积”即无限步完成任务,不易举出例子,如,“赌徒利用 K-摇劈赌博机进行赌博”就是一例(设以赌局作为时间步,且钱有时间价值,即有折扣率 γ \gamma γ),他可以无限玩下去(假定本金不成问题,为了赚更多,他需要摸清赌博机的各参数,如,分布的期望值),当然,他可能提前终止(这时,他没有完成任务,有限步只能得出参数的估计值)。
  • 上标 π \pi π表示决策过程中所采取的策略,即 π ( x , a ) \pi(x,a) π(x,a),通常是优化的目标。

完成任务的每一步的“足迹”形成序列(称为链或轨线): x 0 , x 1 , x 2 , ⋯   , x T , ⋯ x_0,x_1,x_2,\cdots ,x_T,\cdots x0,x1,x2,,xT,,如图16.7 所示,研究递推的技巧是考虑在轨线的左端递减,而不是考虑右端递减,这是由于右端为完成任务的终点。

i.对于“ γ \gamma γ型累积”,即
E x 0 , x 1 , ⋯ ( 无限步完成任务 ) = E x 0 → x 1 E x 1 , x 2 , ⋯ ( 第一步奖赏 + 无限步完成任务 ) = E x 0 → x 1 ( 第一步奖赏 + E x 1 , x 2 , ⋯ ( 无限步完成任务 ) ) \begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots }(\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{第一步奖赏}+\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{无限步完成任务})\right) \tag{16.6} \end{align} x0,x1,E(无限步完成任务)=x0x1Ex1,x2,E(第一步奖赏+无限步完成任务)=x0x1E(第一步奖赏+x1,x2,E(无限步完成任务))(16.6)

ii.对于“ T T T型累积”,即
E x 0 , x 1 , ⋯   , x T ( T 步完成任务 ) = E x 0 → x 1 E x 1 , x 2 , ⋯   , x T ( 第一步奖赏 + T − 1 步完成任务 ) = E x 0 → x 1 ( 第一步奖赏 + E x 1 , x 2 , ⋯   , x T ( T − 1 步完成任务 ) ) \begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{第一步奖赏}+\text{$T-1$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{$T-1$步完成任务})\right) \tag{16.7} \end{align} x0,x1,,xTE(T步完成任务)=x0x1Ex1,x2,,xTE(第一步奖赏+T1步完成任务)=x0x1E(第一步奖赏+x1,x2,,xTE(T1步完成任务))(16.7)
注: T − 1 T-1 T1步完成任务的起点为 x 1 x_1 x1,由马尔可夫链的性质知,状态 x 0 x_0 x0并不对 x 1 x_1 x1后的动作决策产生影响,即(1)过去对未来不产生影响( x 0 x_0 x0只影响 x 1 x_1 x1,不影响其后);(2)未来对当前不产生影响(不存在逆影响),体现在式子的可“分解”: E x 0 , x 1 , ⋯   , x T = E x 0 → x 1 E x 1 , x 2 , ⋯   , x T \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }=\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T } x0,x1,,xTE=x0x1Ex1,x2,,xTE
图16.7 足迹序列

图16.7 足迹序列

错误的递推式
E x 0 , x 1 , ⋯   , x T ( T 步完成任务 ) = E x 0 , x 1 , ⋯   , x T ( T − 1 步完成任务 + 最后一步奖赏 ) = E x 0 , x 1 , ⋯   , x T − 1 ( T − 1 步完成任务 ) + E x T − 1 → x T ( 最后一步奖赏 ) \begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T-1$步完成任务}+\text{最后一步奖赏})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_{T-1}}(\text{$T-1$步完成任务})+\mathop{\mathbb{E} }\limits_{x_{T-1}\to x_T}(\text{最后一步奖赏}) \tag{16.8} \end{align} x0,x1,,xTE(T步完成任务)=x0,x1,,xTE(T1步完成任务+最后一步奖赏)=x0,x1,,xT1E(T1步完成任务)+xT1xTE(最后一步奖赏)(16.8)
第一个等式中定义的是“ x T = 完成态 x_{T}=\text{完成态} xT=完成态”,起点为 x 0 x_0 x0,第二个等式中又定义“ x T − 1 = 完成态 x_{T-1}=\text{完成态} xT1=完成态”,起点也为 x 0 x_0 x0,因此是错误的。这类常见错误是在递推过程中将“完成态”作为动点(既可为 x T x_{T} xT,又可为 x T − 1 x_{T-1} xT1),而将“起点”作为“不动点”。

严格来讲,“ T T T型”模型中统一规定了
{ 终点 x T = 完成态 最后一步 x T − 1 → x T “强制”完成任务 直接定义了最后一步的 r T \begin{align} \begin{cases} \text{终点$x_T=$完成态} \\ \text{最后一步${x_{T-1}\to x_T}$“强制”完成任务} \\ \text{直接定义了最后一步的$r_T$} \\ \end{cases} \tag{16.9} \end{align} 终点xT=完成态最后一步xT1xT强制完成任务直接定义了最后一步的rT(16.9)
其中,“完成态”定义于系统外且唯一的不动点(地平线),由“强制”性知,最后一步 x T − 1 → x T x_{T-1}\to x_T xT1xT中决策 π \pi π和转移概率 P P P均失效(故可将“完成态”放到系统外),因此只需单独定义这一步的值 r T r_T rT,对所有 x x x都考虑作为 x T − 1 x_{T-1} xT1情况,这时, r T r_T rT转化为只与 x x x有关,记为 r ( x ) r(x) r(x),式(16.9)变为
{ x →   完成态 定义了 r ( x ) \begin{align} \begin{cases} x\to\, \text{完成态} \\ \text{定义了$r(x)$} \\ \end{cases} \tag{16.10} \end{align} {x完成态定义了r(x)(16.10)
即“ x →   完成态 x\to\, \text{完成态} x完成态”这一步不用决策,而是“强制”地到达,其“强制”成本的负值(或倒数)就作为奖赏 r ( x ) r(x) r(x),例如,以“步进小车开到指定的位置”作为任务,以其位置作为状态,当小车已在指定位置时,成本为0;当小车与指定的位置有一格的距离时,一步到达的成本为1;当小车与指定的位置有二格的距离时,一步到达的成本为2; ⋯ \cdots 。 也就是说,根据环境对所有状态定义一遍成本(或奖赏)。

现在考虑“ T T T型”模型轨线(足迹序列)的“步均奖赏”,设第 t t t步的奖赏 r t r_t rt x t − 1 → x t x_{t-1}\to x_t xt1xt的一步奖赏,在策略 π \pi π下,起点为 x x x链长为 T T T步,“步均奖赏”为 V T π ( x ) V^{\pi}_T(x) VTπ(x)

先看一步完成:“ x T − 1 → x T {x_{T-1}\to x_T} xT1xT”,根据式(16.10)有
V 1 π ( x ) = r ( x ) \begin{align} V^{\pi}_1(x)=r(x) \tag{16.11} \end{align} V1π(x)=r(x)(16.11)
这也可以作为状态-值函数改进序列 V s π ( x ) V_s^{\pi}(x) Vsπ(x)的初始化。

再看起点为 x 0 = x x_0=x x0=x长度为 T T T的轨线的“步均奖赏”情况
V T π ( x ) = E π ( 1 T [ ∑ t = 1 T r t ] x 0 = x ) = E x 0 , x 1 , ⋯   , x T ( 1 T [ r 1 ( x 0 ) + ∑ t = 2 T r t ] x 0 = x ) = E x 0 → x 1 E x 1 , x 2 , ⋯   , x T ( 1 T r 1 ( x 0 ) + 1 T ∑ t = 2 T r t ) x 0 = x = E x 0 → x 1 ( 1 T E x 1 , ⋯   , x T r 1 ( x 0 ) + T − 1 T E x 1 , x 2 , ⋯   , x T ( 1 T − 1 [ ∑ t = 2 T r t ] x 1 ) ) ( x 0 = x ) = E x 0 → x 1 ( 1 T r 1 ( x 0 ) + T − 1 T V T − 1 π ( x 1 ) ) ( x 0 = x ) = E x 0 → a x ′ ( 1 T r 1 ( x 0 ) + T − 1 T V T − 1 π ( x ′ ) ) ( x 0 = x ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( 1 T R x → x ′ a + T − 1 T V T − 1 π ( x ′ ) ) \begin{align} V^{\pi}_T(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}[\sum_{t=1}^Tr_t]_{x_0=x}\right) \tag{16.12} \\ & =\mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }\left(\frac{1}{T}[r_1(x_0)+\sum_{t=2}^Tr_t]_{x_0=x}\right)\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T}r_1(x_0)+\frac{1}{T}\sum_{t=2}^Tr_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}\mathop{\mathbb{E} }\limits_{x_1,\cdots,x_T }r_1(x_0)+\frac{{T-1}}{T}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T-1}[\sum_{t=2}^Tr_t]_{x_1}\right)\right)_{(x_0=x)}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x_1)\right)_{(x_0=x)} \tag{16.13} \\ & =\mathop{\mathbb{E} }\limits_{x_0\mathop{\to }\limits_{a} x' }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right)_{(x_0=x)}\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\to x'}+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right) \tag{16.14} \end{align} VTπ(x)=πE(T1[t=1Trt]x0=x)=x0,x1,,xTE(T1[r1(x0)+t=2Trt]x0=x)=x0x1Ex1,x2,,xTE(T1r1(x0)+T1t=2Trt)x0=x=x0x1E(T1x1,,xTEr1(x0)+TT1x1,x2,,xTE(T11[t=2Trt]x1))(x0=x)=x0x1E(T1r1(x0)+TT1VT1π(x1))(x0=x)=x0axE(T1r1(x0)+TT1VT1π(x))(x0=x)=aAπ(x,a)xAPxxa(T1Rxxa+TT1VT1π(x))(16.12)(16.13)(16.14)
其中,式(16.12)即为【西瓜书式(16.5)第一式】,式(16.14)即为【西瓜书式(16.7)】。

可以按该思路推导 V γ π ( x ) V^{\pi }_{\gamma}(x) Vγπ(x)的递推式【西瓜书式(16.8)】,为扩展思路,这里我们再以一种新方法对 V γ π ( x ) V^{\pi }_{\gamma}(x) Vγπ(x)的递推式进行推导。

对于固定的策略 π \pi π,每个状态 x x x都有对应的“状态值函数”的值 V π ( x ) V^{\pi}(x) Vπ(x),这些值是离散的,即有集合 { V π ( x ) } x ∈ X \{V^{\pi}(x)\}_{x\in X} {Vπ(x)}xX,对应于“足迹”序列,也有“状态值函数”的值序列,即图16.6 对应有图16.8 。
图16.8 “状态值函数”的值序列

图16.8 “状态值函数”的值序列

图16.8 中,由状态转移( x → x ′ x\rightarrow x' xx)的两阶段概率可以得到 V π ( x ) V^{\pi}(x) Vπ(x)转移至 V π ( x ′ ) V^{\pi}(x') Vπ(x)的概率为 π ( x , a ) × P x → x ′ a \pi (x,a)\times P^a_{x\rightarrow x'} π(x,a)×Pxxa。 因此,可视为“状态值函数”值 { V π ( x ) } x ∈ X \{V^{\pi}(x)\}_{x\in X} {Vπ(x)}xX间的转移。 故此,可将图16.8 简化为图16.9 。

图16.9 “状态值函数”值间的转移

图16.9 “状态值函数”值间的转移

“状态值函数” V π ( x ) V^{\pi}(x) Vπ(x)定义为状态 x x x处的“累积奖赏”,这里是形式化的思考,如果不打折的话,无限步的"和"为无穷大,没有意义;另外,式(16.7)是反向累积,即在 x x x处完成工作的报酬为在 x ′ x' x处完成工作的报酬加上多了第一步的工作( x → x ′ x\rightarrow x' xx)的报酬。

即有
V π ( x ) = E ( x → a ) × ( a → x ′ ) ( R x → x ′ a + V π ( x ′ ) ) = ∑ a , x ′ π ( x , a ) × P x → x ′ a ( R x → x ′ a + V π ( x ′ ) ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( R x → x ′ a + V π ( x ′ ) ) \begin{align} V^{\pi}(x) & = \mathop{\mathbb{E} }\limits_{(x\to a)\times (a\to x')}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a,x'}\pi (x,a)\times P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x')) \tag{16.15} \end{align} Vπ(x)=(xa)×(ax)E(Rxxa+Vπ(x))=a,xπ(x,a)×Pxxa(Rxxa+Vπ(x))=aAπ(x,a)xAPxxa(Rxxa+Vπ(x))(16.15)

x x x出发比从 x ′ x' x出发多了一步( x → x ′ x\rightarrow x' xx),若采用“ γ \gamma γ折扣累积奖赏”,则由16.1 任务与奖赏图(16.4)将 V π ( x ′ ) V^{\pi}(x') Vπ(x)折为现值 V π ( x ′ ) γ 1 V^{\pi}(x')\gamma ^1 Vπ(x)γ1,故式(16.15)调整为式(16.16)
V γ π ( x ) = ∑ a ∈ A π ( x , a ) ∑ x ′ ∈ A P x → x ′ a ( R x → x ′ a + γ V γ π ( x ′ ) ) \begin{align} V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.16} \end{align} Vγπ(x)=aAπ(x,a)xAPxxa(Rxxa+γVγπ(x))(16.16)
这即为【西瓜书式(16.8)】,它是关于 x x x的函数,该式中 x x x为外部给定的(言下之意: x x x在式子外变化(自变量),而 x ′ x' x在式中变化并被“和号”消去(局部变量))。

【西瓜书式(16.7)(16.8)】是值函数的递归等式,称为贝尔曼方程(Bellman等式)。
注:Bellman方程通常指离散时间最优化问题的动态规划方程,借助数学的不动点理论,可以严格地证明Bellman方程(簇)中存在唯一的最优方程,即【西瓜书 (16.13)】【西瓜书 (16.15)】,另外,对于连续时间最优化问题,有相应的HJB方程(Hamilton-Jacobi-Bellman Equation)。

由图16.6 有
V π ( x ) = ∑ a ∈ A π ( x , a ) Q π ( x , a ) \begin{align} V^{\pi}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}(x,a) \tag{16.17} \end{align} Vπ(x)=aAπ(x,a)Qπ(x,a)(16.17)
式(16.17)中取 T T T型和 γ \gamma γ型,则有
{ V T π ( x ) = ∑ a ∈ A π ( x , a ) Q T π ( x , a ) V γ π ( x ) = ∑ a ∈ A π ( x , a ) Q γ π ( x , a ) \begin{align} \begin{cases} V^{\pi}_{T}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a) \\ V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a) \\ \end{cases} \tag{16.18} \end{align} {VTπ(x)Vγπ(x)=aAπ(x,a)QTπ(x,a)=aAπ(x,a)Qγπ(x,a)(16.18)
比较式(16.18)与式(16.16),得
Q γ π ( x , a ) = ∑ x ′ ∈ A P x → x ′ a ( R x → x ′ a + γ V γ π ( x ′ ) ) \begin{align} Q^{\pi}_{\gamma}(x,a) & = \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.19} \end{align} Qγπ(x,a)=xAPxxa(Rxxa+γVγπ(x))(16.19)
这即【西瓜书式(16.10)的第二式】,同理可得【西瓜书式(16.10)的第一式】,即由状态值函数的迭代式得到了状态-动作值函数的迭代式【西瓜书式(16.10)】。

固定策略 π \pi π下,对于每一个状态 x x x只有一个 V γ π ( x ) V^{\pi}_{\gamma}(x) Vγπ(x),因为, 1 + ∞ = ∞ 1+\infty =\infty 1+=,但却有许多 V T π ( x ) V^{\pi}_{T}(x) VTπ(x):对每一个 T T T都有一个 V T π ( x ) V^{\pi}_{T}(x) VTπ(x)
T T T T − 1 T-1 T1多一步,感觉 V T π ( x ) ⩾ V T − 1 π ( x ) V^{\pi}_{T}(x)\geqslant V^{\pi}_{T-1}(x) VTπ(x)VT1π(x),但这是不对的(并不是按“多劳多得”,而是按“完成任务”,故它俩应得奖赏近似),因为:
V T π ( x ) − V T − 1 π ( x ) = E π ( 1 T ∑ t = 1 T r t − 1 T − 1 ∑ t = 1 T − 1 r t ) x 0 = x = E π ( ( 1 T − 1 T − 1 ) ∑ t = 1 T − 1 r t + 1 T r T ) x 0 = x = E π ( − 1 T ( T − 1 ) ∑ t = 1 T − 1 r t + 1 T r T ) x 0 = x = 1 T E π ( − 1 ( T − 1 ) ∑ t = 1 T − 1 r t + r T ) x 0 = x = 1 T ( − 1 ( T − 1 ) ∑ t = 1 T − 1 E π r t + E x T r T ) x 0 = x = 1 T ( − r ˉ 1 → ( T − 1 ) + r ˉ T ) x 0 = x (头上戴帽表示均值) ≈ 1 T × 0 = 0 \begin{align} V^{\pi}_T(x)-V^{\pi}_{T-1}(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}\sum_{t=1}^Tr_t-\frac{1}{T-1}\sum_{t=1}^{T-1}r_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\left(\frac{1}{T}-\frac{1}{T-1}\right)\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{T(T-1)}\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}r_t+r_T\right)_{x_0=x} \tag{16.20} \\ & =\frac{1}{T}\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}\mathop{\mathbb{E} }\limits_{\pi }r_t+\mathop{\mathbb{E} }\limits_{x_T }r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\left(-\bar {r}_{1\to (T-1)}+\bar {r}_{T}\right)_{x_0=x}\quad \text {(头上戴帽表示均值)}\notag \\ & \approx \frac{1}{T}\times 0\notag \\ & =0 \tag{16.21} \end{align} VTπ(x)VT1π(x)=πE(T1t=1TrtT11t=1T1rt)x0=x=πE((T1T11)t=1T1rt+T1rT)x0=x=πE(T(T1)1t=1T1rt+T1rT)x0=x=T1πE((T1)1t=1T1rt+rT)x0=x=T1((T1)1t=1T1πErt+xTErT)x0=x=T1(rˉ1(T1)+rˉT)x0=x(头上戴帽表示均值)T1×0=0(16.20)(16.21)

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:16.2 K-摇劈赌博机的贪心算法(赌博当然贪心)
下一篇:16.4 有模型策略估值算法

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值