一、需要证明:
E [ V ( s t + 1 ) ∣ s t ] = E [ E [ G t + 1 ∣ s t + 1 ] ∣ s t ] = E [ G t + 1 ∣ s t ] , (1) \mathbb{E} [V(s_{t+1})|s_t] = \mathbb{E} [ \mathbb{E}{[G_{t+1}|s_{t+1}]|s_t}] = \mathbb{E} {[G_{t+1}|s_t}], \tag{1} E[V(st+1)∣st]=E[E[Gt+1∣st+1]∣st]=E[Gt+1∣st],(1) 其中第一个等号可以由定义 V ( s t + 1 ) = E [ G t + 1 ∣ s t + 1 ] V(s_{t+1})=\mathbb{E}[G_{t+1}|s_{t+1}] V(st+1)=E[Gt+1∣st+1] 直接得。现证明第二个等号。公式(1)将有利于推导贝尔曼方程。
二、证明过程:
-
为了简化符号表达,先把公式(1)的符号下标省略。 s t = s s_t = s st=s, G t + 1 = g ′ G_{t+1} = g' Gt+1=g′ 和 s t + 1 = s ′ s_{t+1} = s' st+1=s′.
-
说明几个将会用到的公式
1. If x is a discrete random variable, then, it expectation value E [ x ] \mathbb{E}[x] E[x] is,
E [ x ] = ∑ x x p ( x ) = ∑ i E [ x ∣ A i ] p ( A i ) = ∑ x x ∑ i p ( x ∣ A i ) p ( A i ) , (2) \mathbb{E}[x] = \sum_x xp(x) = \sum_i \mathbb{E} [x|A_i] p(A_i)= \sum_x x \sum_ip(x|A_i)p(A_i), \tag{2} E[x]=x∑xp(x)=i∑E[x∣Ai]p(Ai)=x∑xi∑p(x∣Ai)p(Ai),(2)其中 p ( x ) p(x) p(x)表示 x x x的概率密度函数, 且 p ( x ) = ∑ i p ( x ∣ A i ) p ( A i ) p(x)= \sum_ip(x|A_i)p(A_i) p(x)=∑ip(x∣Ai)p(Ai) 【全概率公式】。
2. If x and y are discrete random variables, then, their conditional expectation value E [ y ∣ x ] \mathbb{E}[y|x] E[y∣x] is,
E [ y ∣ x ] = ∑ y y p ( y ∣ x ) . (3) \mathbb{E}[y|x] = \sum_y yp(y|x). \tag{3} E[y∣x]=y∑yp(y∣x).(3) -
可以看到 需要证明的公式 是一个具有 双重期望 与 双重条件集 的 等式 E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[g′∣s′]∣s]=E[g′∣s]。所以先尝试推导 一个简单的情况( 双重期望、单条件集的情况),即 E [ E [ g ′ ∣ s ′ ] ] = E [ g ′ ] \mathbb{E} [ \mathbb{E}{[g'|s']}] = \mathbb{E} {[g'}] E[E[g′∣s′]]=E[g′] :
E [ E [ g ′ ∣ s ′ ] ] = ∑ s ′ E [ g ′ ∣ s ′ ] p ( s ′ ) = ∑ s ′ ∑ g ′ g ′ p ( g ′ ∣ s ′ ) p ( s ′ ) = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ ∣ s ′ ) p ( s ′ ) ] = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ , s ′ ) ] = ∑ g ′ g ′ p ( g ′ ) = E [ g ′ ] . (4) \mathbb{E} [ \mathbb{E}{[g'|s']}] = \sum_{s'}\mathbb{E}{[g'|s']} p(s')\\ = \sum_{s'} \sum_{g'} g'p(g'|s') p(s') \\ =\sum_{g'} g' [\sum_{s'} p(g'|s') p(s')] \\ = \sum_{g'} g' [\sum_{s'} p(g',s')] \\ = \sum_{g'} g'p(g') = \mathbb{E} {[g'}]. \tag{4} E[E[g′∣s′]]=s′∑E[g′∣s′]p(s′)=s′∑g′∑g′p(g′∣s′)p(s′)=g′∑g′[s′∑p(g′∣s′)p(s′)]=g′∑g′[s′∑p(g′,s′)]=g′∑g′p(g′)=E[g′].(4) 首先我们需要关注的是 期望 E ( ⋅ ) \mathbb{E}(\cdot) E(⋅) 是对谁求期望。即,在 E [ E [ g ′ ∣ s ′ ] ] \mathbb{E} [ \mathbb{E}{[g'|s']}] E[E[g′∣s′]]中, 第一个期望 E \mathbb{E} E 针对 s ′ s' s′,第二个期望 E \mathbb{E} E 针对 g ′ g' g′. 所以:
公式(4)的第一个等号,可以根据公式(2)得出。公式(4)的第二个等号,可以根据公式(3)得出.
公式(4)的第三个等号,做了个交换顺序。公式(4)的第四个、五个等号,可以从公式(2)提及的全概率公式知道。 -
现在来推我们想要的 双重期望 与 双重条件集 的 等式 E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[g′∣s′]∣s]=E[g′∣s] 就容易多了:
E [ E [ g ′ ∣ s ′ ] ∣ s ] = ∑ s ′ E [ g ′ ∣ s ′ , s ] p ( s ′ ∣ s ) = ∑ s ′ [ ∑ g ′ g ′ p ( g ′ ∣ s ′ , s ) ] p ( s ′ ∣ s ) = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ ∣ s ′ , s ) p ( s ′ ∣ s ) ] = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ , s ′ ∣ s ) ] = ∑ g ′ g ′ p ( g ′ ∣ s ) = E [ g ′ ∣ s ] . (5) \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \sum_{s'}\mathbb{E}{[g'|s',s]} p(s'|s)\\ = \sum_{s'} [ \sum_{g'} g' p(g'|s',s) ] p(s'|s)\\ = \sum_{g'} g' [ \sum_{s'}p(g'|s',s) p(s'|s) ] \\ = \sum_{g'} g' [ \sum_{s'} p(g',s'|s) ] \\ = \sum_{g'} g' p(g'|s) = \mathbb{E} {[g'|s}] \tag{5}. E[E[g′∣s′]∣s]=s′∑E[g′∣s′,s]p(s′∣s)=s′∑[g′∑g′p(g′∣s′,s)]p(s′∣s)=g′∑g′[s′∑p(g′∣s′,s)p(s′∣s)]=g′∑g′[s′∑p(g′,s′∣s)]=g′∑g′p(g′∣s)=E[g′∣s].(5) 与公式(4)同样的思路,我们先分析 每个期望 E ( ⋅ ) \mathbb{E}(\cdot) E(⋅) 是对谁求期望。即,在 E [ E [ g ′ ∣ s ′ ] ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] E[E[g′∣s′]∣s]中, 第一个期望 E \mathbb{E} E 针对 s ′ s' s′,第二个期望 E \mathbb{E} E 针对 g ′ g' g′ (和公式(4)一样). 所以:
公式(5)的第一个等号,与公式(4)相比,只是多了个 s s s作为条件集(注意的是 因为这里 s s s条件集并没有被要求做期望 E \mathbb{E} E,所以它只发挥条件集的作用)。
公式(5)的第二个等号,可以根据公式(3)得出.
公式(5)的第三个等号,做了个交换顺序。
公式(5)的第四个等号,可以从公式(2)提及的全概率公式知道:相比公式(2)的 p ( g ′ ∣ s ′ ) p ( s ′ ) = p ( g ′ , s ′ ) p(g'|s') p(s') = p(g',s') p(g′∣s′)p(s′)=p(g′,s′), 这里也只是多了个条件集,所以类似有 p ( g ′ ∣ s ′ , s ) p ( s ′ ∣ s ) = p ( g ′ , s ′ ∣ s ) p(g'|s',s) p(s'|s)=p(g',s'|s) p(g′∣s′,s)p(s′∣s)=p(g′,s′∣s) 。
综上, E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[g′∣s′]∣s]=E[g′∣s] 得证。上述过程参考了[1], 里面包含了连续随机变量 双重期望、单条件集的证明,也就是公式(4)连续情况的证明.
reference
[1] https://www.zhihu.com/question/58919546