贝尔曼方程基于全期望公式的前期推导

一、需要证明:

E [ V ( s t + 1 ) ∣ s t ] = E [ E [ G t + 1 ∣ s t + 1 ] ∣ s t ] = E [ G t + 1 ∣ s t ] , (1) \mathbb{E} [V(s_{t+1})|s_t] = \mathbb{E} [ \mathbb{E}{[G_{t+1}|s_{t+1}]|s_t}] = \mathbb{E} {[G_{t+1}|s_t}], \tag{1} E[V(st+1)st]=E[E[Gt+1st+1]st]=E[Gt+1st],(1) 其中第一个等号可以由定义 V ( s t + 1 ) = E [ G t + 1 ∣ s t + 1 ] V(s_{t+1})=\mathbb{E}[G_{t+1}|s_{t+1}] V(st+1)=E[Gt+1st+1] 直接得。现证明第二个等号。公式(1)将有利于推导贝尔曼方程。

二、证明过程:

  • 为了简化符号表达,先把公式(1)的符号下标省略。 s t = s s_t = s st=s, G t + 1 = g ′ G_{t+1} = g' Gt+1=g s t + 1 = s ′ s_{t+1} = s' st+1=s.

  • 说明几个将会用到的公式
    1. If x is a discrete random variable, then, it expectation value E [ x ] \mathbb{E}[x] E[x] is,
    E [ x ] = ∑ x x p ( x ) = ∑ i E [ x ∣ A i ] p ( A i ) = ∑ x x ∑ i p ( x ∣ A i ) p ( A i ) , (2) \mathbb{E}[x] = \sum_x xp(x) = \sum_i \mathbb{E} [x|A_i] p(A_i)= \sum_x x \sum_ip(x|A_i)p(A_i), \tag{2} E[x]=xxp(x)=iE[xAi]p(Ai)=xxip(xAi)p(Ai),(2)其中 p ( x ) p(x) p(x)表示 x x x的概率密度函数, 且 p ( x ) = ∑ i p ( x ∣ A i ) p ( A i ) p(x)= \sum_ip(x|A_i)p(A_i) p(x)=ip(xAi)p(Ai) 【全概率公式】。
    2. If x and y are discrete random variables, then, their conditional expectation value E [ y ∣ x ] \mathbb{E}[y|x] E[yx] is,
    E [ y ∣ x ] = ∑ y y p ( y ∣ x ) . (3) \mathbb{E}[y|x] = \sum_y yp(y|x). \tag{3} E[yx]=yyp(yx).(3)

  • 可以看到 需要证明的公式 是一个具有 双重期望 与 双重条件集 的 等式 E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[gs]s]=E[gs]。所以先尝试推导 一个简单的情况( 双重期望、单条件集的情况),即 E [ E [ g ′ ∣ s ′ ] ] = E [ g ′ ] \mathbb{E} [ \mathbb{E}{[g'|s']}] = \mathbb{E} {[g'}] E[E[gs]]=E[g]
    E [ E [ g ′ ∣ s ′ ] ] = ∑ s ′ E [ g ′ ∣ s ′ ] p ( s ′ ) = ∑ s ′ ∑ g ′ g ′ p ( g ′ ∣ s ′ ) p ( s ′ ) = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ ∣ s ′ ) p ( s ′ ) ] = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ , s ′ ) ] = ∑ g ′ g ′ p ( g ′ ) = E [ g ′ ] . (4) \mathbb{E} [ \mathbb{E}{[g'|s']}] = \sum_{s'}\mathbb{E}{[g'|s']} p(s')\\ = \sum_{s'} \sum_{g'} g'p(g'|s') p(s') \\ =\sum_{g'} g' [\sum_{s'} p(g'|s') p(s')] \\ = \sum_{g'} g' [\sum_{s'} p(g',s')] \\ = \sum_{g'} g'p(g') = \mathbb{E} {[g'}]. \tag{4} E[E[gs]]=sE[gs]p(s)=sggp(gs)p(s)=gg[sp(gs)p(s)]=gg[sp(g,s)]=ggp(g)=E[g].(4) 首先我们需要关注的是 期望 E ( ⋅ ) \mathbb{E}(\cdot) E() 是对谁求期望。即,在 E [ E [ g ′ ∣ s ′ ] ] \mathbb{E} [ \mathbb{E}{[g'|s']}] E[E[gs]]中, 第一个期望 E \mathbb{E} E 针对 s ′ s' s,第二个期望 E \mathbb{E} E 针对 g ′ g' g. 所以:
    公式(4)的第一个等号,可以根据公式(2)得出。公式(4)的第二个等号,可以根据公式(3)得出.
    公式(4)的第三个等号,做了个交换顺序。公式(4)的第四个、五个等号,可以从公式(2)提及的全概率公式知道。

  • 现在来推我们想要的 双重期望双重条件集 的 等式 E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[gs]s]=E[gs] 就容易多了:
    E [ E [ g ′ ∣ s ′ ] ∣ s ] = ∑ s ′ E [ g ′ ∣ s ′ , s ] p ( s ′ ∣ s ) = ∑ s ′ [ ∑ g ′ g ′ p ( g ′ ∣ s ′ , s ) ] p ( s ′ ∣ s ) = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ ∣ s ′ , s ) p ( s ′ ∣ s ) ] = ∑ g ′ g ′ [ ∑ s ′ p ( g ′ , s ′ ∣ s ) ] = ∑ g ′ g ′ p ( g ′ ∣ s ) = E [ g ′ ∣ s ] . (5) \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \sum_{s'}\mathbb{E}{[g'|s',s]} p(s'|s)\\ = \sum_{s'} [ \sum_{g'} g' p(g'|s',s) ] p(s'|s)\\ = \sum_{g'} g' [ \sum_{s'}p(g'|s',s) p(s'|s) ] \\ = \sum_{g'} g' [ \sum_{s'} p(g',s'|s) ] \\ = \sum_{g'} g' p(g'|s) = \mathbb{E} {[g'|s}] \tag{5}. E[E[gs]s]=sE[gs,s]p(ss)=s[ggp(gs,s)]p(ss)=gg[sp(gs,s)p(ss)]=gg[sp(g,ss)]=ggp(gs)=E[gs].(5) 与公式(4)同样的思路,我们先分析 每个期望 E ( ⋅ ) \mathbb{E}(\cdot) E() 是对谁求期望。即,在 E [ E [ g ′ ∣ s ′ ] ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] E[E[gs]s]中, 第一个期望 E \mathbb{E} E 针对 s ′ s' s,第二个期望 E \mathbb{E} E 针对 g ′ g' g (和公式(4)一样). 所以:
    公式(5)的第一个等号,与公式(4)相比,只是多了个 s s s作为条件集(注意的是 因为这里 s s s条件集并没有被要求做期望 E \mathbb{E} E,所以它只发挥条件集的作用)。
    公式(5)的第二个等号,可以根据公式(3)得出.
    公式(5)的第三个等号,做了个交换顺序。
    公式(5)的第四个等号,可以从公式(2)提及的全概率公式知道:相比公式(2)的 p ( g ′ ∣ s ′ ) p ( s ′ ) = p ( g ′ , s ′ ) p(g'|s') p(s') = p(g',s') p(gs)p(s)=p(g,s), 这里也只是多了个条件集,所以类似有 p ( g ′ ∣ s ′ , s ) p ( s ′ ∣ s ) = p ( g ′ , s ′ ∣ s ) p(g'|s',s) p(s'|s)=p(g',s'|s) p(gs,s)p(ss)=p(g,ss)

综上, E [ E [ g ′ ∣ s ′ ] ∣ s ] = E [ g ′ ∣ s ] \mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}] E[E[gs]s]=E[gs] 得证。上述过程参考了[1], 里面包含了连续随机变量 双重期望、单条件集的证明,也就是公式(4)连续情况的证明.

reference

[1] https://www.zhihu.com/question/58919546

哈密顿-雅可比-贝尔曼方程推导是基于动态规划的思想。动态规划是一种解决多阶段决策过程最优化问题的方法。在这个过程中,我们需要找到一个最优策略,使得总成本最小化。这个问题可以被分解成多个子问题,每个子问题都是一个最优化问题。通过解决这些子问题,我们可以得到整个问题的最优解。 在动态规划中,我们需要定义一个价值函数,它表示在当前状态下采取最优策略所能得到的最小成本。哈密顿-雅可比-贝尔曼方程就是用来计算这个价值函数的。具体来说,它是一个偏微分方程,描述了价值函数在时间和状态上的变化。 哈密顿-雅可比-贝尔曼方程推导可以分为两个步骤。首先,我们需要定义一个贝尔曼方程,它描述了价值函数在一个时间步长内的变化。然后,我们将这个贝尔曼方程推广到连续时间和状态空间上,得到哈密顿-雅可比-贝尔曼方程。 具体来说,贝尔曼方程可以表示为: V(s) = min_u {c(s,u) + γ ∑_s' p(s'|s,u) V(s')} 其中,V(s)表示在状态s下的价值函数,c(s,u)表示在状态s下采取行动u所产生的成本,p(s'|s,u)表示在状态s下采取行动u后转移到状态s'的概率,γ是一个折扣因子,用于平衡当前和未来的成本。 接下来,我们将这个贝尔曼方程推广到连续时间和状态空间上。我们定义一个哈密顿函数H(x,u,t),它表示在时间t和状态x下采取行动u所能得到的最小成本。哈密顿函数可以表示为: H(x,u,t) = min_v {c(x,u,v,t) + ∂V(x,t)/∂t + ∑_i=1^n f_i(x,u,v,t) ∂V(x,t)/∂x_i} 其中,c(x,u,v,t)表示在状态x下采取行动u和v所产生的成本,f_i(x,u,v,t)表示状态x在第i个维度上的变化率。 最后,我们可以得到哈密顿-雅可比-贝尔曼方程: ∂V(x,t)/∂t + min_u H(x,u,t) = 0 这个方程描述了价值函数在时间和状态上的变化。通过求解这个方程,我们可以得到最优策略和最小成本。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值