贝尔曼方程-推导与联系

本文详细介绍了贝尔曼方程的推导过程,从基础的期望值计算开始,逐步展开,最终得出强化学习中的核心方程。通过交换求和符号和运用一致性收敛性质,展示了如何从状态转移概率和奖励函数中导出贝尔曼方程,为理解强化学习的动态规划基础提供了清晰的理论框架。
摘要由CSDN通过智能技术生成

更新于2024.10.21,在做了一些工作后对贝尔曼方程有了新的理解,此外发现文章中存在的一些错误,故重新编辑,在这里进行一个更新。
贝尔曼方程实际上有着许多的表达方式,在不同的场景下也有着不同的称呼,但是这些表达方式之间均可以相互转化,且均描述了某一状态 s t a t e state state(或是状态-动作对 s t a t e − a c t i o n p a i r state-action pair stateactionpair)与其他所有状态或是状态-动作对的关系,本文包含以下几个部分,一是状态价值函数间的贝尔曼方程,二是动作价值函数间的贝尔曼方程,三是总结了不同部分的联系:
由定义出发,可以得 V V V Q Q Q的联系:
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ( V − Q ) v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q) vπ(s)=Eaπ(s)[qπ(s,a)](VQ)
而贝尔曼方程则有三种表述方式:
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ] ( V − V ) q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ( Q − V ) q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ) ] ( Q − Q ) \begin{aligned} &v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q) \end{aligned} vπ(s)=Eaπ(s)[E[rs,a]+γEsp(s,a)[vπ(s)]](VV)qπ(s,a)=E[rs,a]+γEsp(s,a)[vπ(s)](QV)qπ(s,a)=E[rs,a]+γEsp(s,a)[Eaπ(s)[qπ(s,a)])](QQ)

一、状态价值函数(state-Value function)间的贝尔曼方程

这一次我们从累计折扣回报 G t G_{t} Gt出发, G t G_{t} Gt被定义为:
G t ≐ R t + 1 + γ R t + 2 + γ 2 R t + 3 + … G_t \doteq R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots GtRt+1+γRt+2+γ2Rt+3+
状态价值函数 v π ( s ) ( s t a t e − V a l u e f u n c t i o n ) v_\pi(s)(state-Value function) vπ(s)stateValuefunction被定义为:
v π ( s ) ≐ E [ G t ∣ S t = s ] v_\pi(s) \doteq \mathbb{E}\left[G_t \mid S_t=s\right] vπ(s)E[GtSt=s]
这也是sutton《强化学习》3.5节中给出的形式,我们的目的是构建状态之间的联系。首先由
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + … = R t + 1 + γ ( R t + 2 + γ R t + 3 + … ) = R t + 1 + γ G t + 1 \begin{aligned} G_t & =R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots \\ & =R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right) \\ & =R_{t+1}+\gamma G_{t+1} \end{aligned} Gt=Rt+1+γRt+2+γ2Rt+3+=Rt+1+γ(Rt+2+γRt+3+)=Rt+1+γGt+1
进而状态价值函数可以被表示为:
v π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] \begin{aligned} v_\pi(s) & =\mathbb{E}\left[G_t \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1}+\gamma G_{t+1} \mid S_t=s\right] \\ & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right] \end{aligned} vπ(s)=E[GtSt=s]=E[Rt+1+γGt+1St=s]=E[Rt+1St=s]+γE[Gt+1St=s]
状态价值函数由两部分构成,对于 E [ R t + 1 ∣ S t = s ] \mathbb{E}\left[R_{t+1} \mid S_t=s\right] E[Rt+1St=s]有:
E [ R t + 1 ∣ S t = s ] = ∑ r ∈ R r t + 1 p ( r t + 1 ∣ S t = s ) = ∑ r ∈ R ∑ a ∈ A r t + 1 p ( r t + 1 , A t = a ∣ S t = s ) = ∑ r ∈ R ∑ a ∈ A r t + 1 p ( r t + 1 ∣ S t = s , A t = a ) π ( a ∣ s ) = ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R r t + 1 p ( r t + 1 ∣ S t = s , A t = a ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S ∑ r ∈ R r p ( s ′ , r ∣ s , a ) ‾ = ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R p ( r ∣ s , a ) r . \begin{aligned} \mathbb{E}\left[R_{t+1} \mid S_t=s\right] & =\sum_{r \in R}r_{t+1}p(r_{t+1}\mid S_{t}=s)\\ &=\sum_{r \in R}\sum_{a \in A}r_{t+1}p(r_{t+1},A_{t}=a\mid S_{t}=s)\\ &=\sum_{r \in R}\sum_{a \in A}r_{t+1}p(r_{t+1}\mid S_{t}=s,A_{t}=a)\pi(a\mid s)\\ &=\sum_{a \in A}\pi(a\mid s)\sum_{r \in R}r_{t+1}p(r_{t+1}\mid S_{t}=s,A_{t}=a)\\ &=\underline{\sum_{a \in A}\pi(a\mid s)\sum_{s^{\prime} \in S}\sum_{r \in R}rp(s^{\prime},r\mid s,a)}\\ & =\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{r \in \mathcal{R}} p(r \mid s, a) r . \end{aligned} E[Rt+1St=s]=rRrt+1p(rt+1St=s)=rRaArt+1p(rt+1,At=aSt=s)=rRaArt+1p(rt+1St=s,At=a)π(as)=aAπ(as)rRrt+1p(rt+1St=s,At=a)=aAπ(as)sSrRrp(s,rs,a)=aAπ(as)rRp(rs,a)r.
下划线部分即对应于sutton《强化学习》3.5节中贝尔曼方程的的第一部分。接下来来处理 E [ G t + 1 ∣ S t = s ] \mathbb{E}\left[G_{t+1} \mid S_t=s\right] E[Gt+1St=s]
E [ G t + 1 ∣ S t = s ] = ∑ G t + 1 p ( G t + 1 ∣ S t = s ) = ∑ s ′ ∈ S ∑ G t + 1 p ( G t + 1 , s ′ ∣ S t = s ) = ∑ s ′ ∈ S ∑ G t + 1 p ( G t + 1 ∣ S t = s , S t + 1 = s ′ ) p ( s ′ ∣ S t + 1 = s ′ ) = ∑ s ′ ∈ S E [ G t + 1 ∣ S t = s , S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ ∈ S E [ G t + 1 ∣ S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ ∈ S v π ( s ′ ) p ( s ′ ∣ s ) ‾ = ∑ s ′ ∈ S v π ( s ′ ) ∑ a ∈ A p ( s ′ ∣ s , a ) π ( a ∣ s ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) \begin{aligned} \mathbb{E}\left[G_{t+1} \mid S_t=s\right] &=\sum G_{t+1}p(G_{t+1}\mid S_t=s)\\ &=\sum_{s^{\prime}\in S}\sum G_{t+1}p(G_{t+1},s^{\prime}\mid S_t=s)\\ &=\sum_{s^{\prime}\in S}\sum G_{t+1}p(G_{t+1}\mid S_t=s,S_{t+1}=s^{\prime})p(s^{\prime}\mid S_{t+1}=s^{\prime})\\ & =\sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}\left[G_{t+1} \mid S_t=s, S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}\left[G_{t+1} \mid S_{t+1}=s^{\prime}\right] p\left(s^{\prime} \mid s\right) \\ & =\underline{\sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s\right)}\\ &=\sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) \sum_{a \in \mathcal{A}} p\left(s^{\prime} \mid s, a\right) \pi(a \mid s)\\ &=\sum_{a \in \mathcal{A}} \pi(a \mid s)\sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right)v_\pi\left(s^{\prime}\right)\\ \end{aligned} E[Gt+1St=s]=Gt+1p(Gt+1St=s)=sSGt+1p(Gt+1,sSt=s)=sSGt+1p(Gt+1St=s,St+1=s)p(sSt+1=s)=sSE[Gt+1St=s,St+1=s]p(ss)=sSE[Gt+1St+1=s]p(ss)=sSvπ(s)p(ss)=sSvπ(s)aAp(ss,a)π(as)=aAπ(as)sSp(ss,a)vπ(s)
为了与sutton的表述相同,对于下划线部分:
∑ s ′ ∈ S v π ( s ′ ) p ( s ′ ∣ s ) = ∑ a ∈ A ∑ s ′ ∈ S v π ( s ′ ) p ( s ′ , a ∣ s ) = ∑ a ∈ A ∑ s ′ ∈ S v π ( s ′ ) p ( s ′ ∣ s , a ) π ( a ∣ s ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S v π ( s ′ ) p ( s ′ ∣ s , a ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S ∑ r ∈ R v π ( s ′ ) p ( s ′ , r ∣ s , a ) ‾ \begin{aligned} \sum_{s^{\prime} \in \mathcal{S}} v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s\right)&=\sum_{a\in A}\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime},a \mid s\right)\\ &=\sum_{a\in A}\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s,a\right)\pi(a\mid s)\\ &=\sum_{a\in A}\pi(a\mid s)\sum_{s^{\prime} \in \mathcal{S}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime} \mid s,a\right)\\ &=\underline{\sum_{a\in A}\pi(a\mid s)\sum_{s^{\prime} \in \mathcal{S}}\sum_{r \in \mathcal{R}}v_\pi\left(s^{\prime}\right) p\left(s^{\prime},r \mid s,a\right)}\\ \end{aligned} sSvπ(s)p(ss)=aAsSvπ(s)p(s,as)=aAsSvπ(s)p(ss,a)π(as)=aAπ(as)sSvπ(s)p(ss,a)=aAπ(as)sSrRvπ(s)p(s,rs,a)
融合上面两个部分:
v π ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] , = ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) \begin{aligned} v_\pi(s) & =\mathbb{E}\left[R_{t+1} \mid S_t=s\right]+\gamma \mathbb{E}\left[G_{t+1} \mid S_t=s\right], \\ & =\sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \end{aligned} vπ(s)=E[Rt+1St=s]+γE[Gt+1St=s],=aAπ(as)rRp(rs,a)r+γaAπ(as)sSp(ss,a)vπ(s)
从上式可以看出状态价值函数由两部分构成,第一部分是平均瞬时回报第二部分是平均未来回报。继续整理得:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) [ ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) ] \begin{equation} v_\pi(s) =\sum_{a \in \mathcal{A}} \pi(a \mid s)\left[\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right] \end{equation} vπ(s)=aAπ(as)[rRp(rs,a)r+γsSp(ss,a)vπ(s)]
若是表述为期望形式则有:
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ] ( V − V ) v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V) vπ(s)=Eaπ(s)[E[rs,a]+γEsp(s,a)[vπ(s)]](VV)
这个形式描述了状态价值函数间的关系.
若是代入下划线部分则得到sutton《强化学习》3.5节中的表述:
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_\pi(s) =\sum_a \pi(a \mid s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_\pi\left(s^{\prime}\right)\right] vπ(s)=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]
实际上就是多做了一次全概率公式的求和。这也说明贝尔曼方程有着相当多形式的描述。上面的描述实际上属于 p a i r − w i s e pair-wise pairwise形式的描述,若是将不同状态间的描述排列成方程组的形式即可得到 m a t r i x − v e c t o r matrix-vector matrixvector形式的贝尔曼方程:
[ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π = [ r π ( s 1 ) r π ( s 2 ) r π ( s 3 ) r π ( s 4 ) ] ⏟ r π + γ [ p π ( s 1 ∣ s 1 ) p π ( s 2 ∣ s 1 ) p π ( s 3 ∣ s 1 ) p π ( s 4 ∣ s 1 ) p π ( s 1 ∣ s 2 ) p π ( s 2 ∣ s 2 ) p π ( s 3 ∣ s 2 ) p π ( s 4 ∣ s 2 ) p π ( s 1 ∣ s 3 ) p π ( s 2 ∣ s 3 ) p π ( s 3 ∣ s 3 ) p π ( s 4 ∣ s 3 ) p π ( s 1 ∣ s 4 ) p π ( s 2 ∣ s 4 ) p π ( s 3 ∣ s 4 ) p π ( s 4 ∣ s 4 ) ] ⏟ P π [ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}=\underbrace{\left[\begin{array}{c} r_\pi\left(s_1\right) \\ r_\pi\left(s_2\right) \\ r_\pi\left(s_3\right) \\ r_\pi\left(s_4\right) \end{array}\right]}_{r_\pi}+\gamma \underbrace{\left[\begin{array}{llll} p_\pi\left(s_1 \mid s_1\right) & p_\pi\left(s_2 \mid s_1\right) & p_\pi\left(s_3 \mid s_1\right) & p_\pi\left(s_4 \mid s_1\right) \\ p_\pi\left(s_1 \mid s_2\right) & p_\pi\left(s_2 \mid s_2\right) & p_\pi\left(s_3 \mid s_2\right) & p_\pi\left(s_4 \mid s_2\right) \\ p_\pi\left(s_1 \mid s_3\right) & p_\pi\left(s_2 \mid s_3\right) & p_\pi\left(s_3 \mid s_3\right) & p_\pi\left(s_4 \mid s_3\right) \\ p_\pi\left(s_1 \mid s_4\right) & p_\pi\left(s_2 \mid s_4\right) & p_\pi\left(s_3 \mid s_4\right) & p_\pi\left(s_4 \mid s_4\right) \end{array}\right]}_{P_\pi} \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi} vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4) =rπ rπ(s1)rπ(s2)rπ(s3)rπ(s4) +γPπ pπ(s1s1)pπ(s1s2)pπ(s1s3)pπ(s1s4)pπ(s2s1)pπ(s2s2)pπ(s2s3)pπ(s2s4)pπ(s3s1)pπ(s3s2)pπ(s3s3)pπ(s3s4)pπ(s4s1)pπ(s4s2)pπ(s4s3)pπ(s4s4) vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4)
即:
v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ
其中 v π = [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n v_\pi=\left[v_\pi\left(s_1\right), \ldots, v_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n vπ=[vπ(s1),,vπ(sn)]TRn r π = [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n r_\pi=\left[r_\pi\left(s_1\right), \ldots, r_\pi\left(s_n\right)\right]^T \in \mathbb{R}^n rπ=[rπ(s1),,rπ(sn)]TRn P π ∈ R n × n P_\pi \in \mathbb{R}^{n \times n} PπRn×n [ P π ] i j = p π ( s j ∣ s i ) \left[P_\pi\right]_{i j}=p_\pi\left(s_j \mid s_i\right) [Pπ]ij=pπ(sjsi)。这一形式在表格型MDP中有闭式解,也多用于表格型MDP的推导,有兴趣的可以自行查阅

二、动作价值函数(state-action Value function)间的贝尔曼方程

状态-动作对 ( s , a ) (s,a) (s,a)的动作价值函数 q π ( s , a ) ( a c t i o n − V a l u e f u n c t i o n ) q_\pi(s, a)(action-Value function) qπ(s,a)actionValuefunction被定义为:
q π ( s , a ) ≐ E [ G t ∣ S t = s , A t = a ] q_\pi(s, a) \doteq \mathbb{E}\left[G_t \mid S_t=s, A_t=a\right] qπ(s,a)E[GtSt=s,At=a]
由全概率公式:
E [ G t ∣ S t = s ] ⏟ v π ( s ) = ∑ a ∈ A E [ G t ∣ S t = s , A t = a ] ⏟ q π ( s , a ) π ( a ∣ s ) \underbrace{\mathbb{E}\left[G_t \mid S_t=s\right]}_{v_\pi(s)}=\sum_{a \in \mathcal{A}} \underbrace{\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]}_{q_\pi(s, a)} \pi(a \mid s) vπ(s) E[GtSt=s]=aAqπ(s,a) E[GtSt=s,At=a]π(as)
得:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) = E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ( V − Q ) \begin{aligned} v_\pi(s)&=\sum_{a \in \mathcal{A}} \pi(a \mid s) q_\pi(s, a)\\ &=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q) \end{aligned} vπ(s)=aAπ(as)qπ(s,a)=Eaπ(s)[qπ(s,a)](VQ)
期望形式描述了状态价值与动作价值之间的联系,代入公式(1)即得:
∑ a ∈ A π ( a ∣ s ) q π ( s , a ) = ∑ a ∈ A π ( a ∣ s ) [ ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) ] \sum_{a \in \mathcal{A}} \pi(a \mid s) q_\pi(s, a)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left[\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right] aAπ(as)qπ(s,a)=aAπ(as)[rRp(rs,a)r+γsSp(ss,a)vπ(s)]
两边同时去掉 ∑ a ∈ A π ( a ∣ s ) \sum_{a \in \mathcal{A}} \pi(a \mid s) aAπ(as)即得:
q π ( s , a ) = ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) \begin{equation} q_\pi(s, a)=\sum_{r \in \mathcal{R}} p(r \mid s, a) r+\gamma \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \end{equation} qπ(s,a)=rRp(rs,a)r+γsSp(ss,a)vπ(s)
若以期望形式描述,则可以表述为:
q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ( Q − V ) q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V) qπ(s,a)=E[rs,a]+γEsp(s,a)[vπ(s)](QV)
这一期望形式描述了动作价值与状态价值之间的联系。
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ( V − Q ) v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q) vπ(s)=Eaπ(s)[qπ(s,a)](VQ)
将定义的期望形式代入即有:
q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ) ] ( Q − Q ) q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q) qπ(s,a)=E[rs,a]+γEsp(s,a)[Eaπ(s)[qπ(s,a)])](QQ)
这一形式则描述了动作价值之间的联系。类似的,动作价值函数的贝尔曼方程同样有矩阵向量形式,此处略去不表。

三、总结

由定义出发,可以得 V V V Q Q Q的联系:
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ( V − Q ) v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)]\quad(V-Q) vπ(s)=Eaπ(s)[qπ(s,a)](VQ)
而贝尔曼方程则有三种表述方式:
v π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ] ( V − V ) q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ v π ( s ′ ) ] ( Q − V ) q π ( s , a ) = E [ r ∣ s , a ] + γ E s ′ ∼ p ( ⋅ ∣ s , a ) [ E a ∼ π ( ⋅ ∣ s ) [ q π ( s , a ) ] ) ] ( Q − Q ) \begin{aligned} &v_\pi(s)=\mathbb{E}_{a \sim \pi(\cdot \mid s)}\left[\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right]\right] \quad(V-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[v_\pi(s^{\prime})\right] \quad(Q-V)\\ &q_\pi(s, a)=\mathbb{E}[r\mid s,a]+\gamma \mathbb{E}_{s^{\prime} \sim p(\cdot \mid s, a)}\left[\mathbb{E}_{a \sim \pi(\cdot \mid s)}[q_\pi(s, a)])\right] \quad(Q-Q) \end{aligned} vπ(s)=Eaπ(s)[E[rs,a]+γEsp(s,a)[vπ(s)]](VV)qπ(s,a)=E[rs,a]+γEsp(s,a)[vπ(s)](QV)qπ(s,a)=E[rs,a]+γEsp(s,a)[Eaπ(s)[qπ(s,a)])](QQ)

哈密顿-雅可比-贝尔曼方程推导是基于动态规划的思想。动态规划是一种解决多阶段决策过程最优化问题的方法。在这个过程中,我们需要找到一个最优策略,使得总成本最小化。这个问题可以被分解成多个子问题,每个子问题都是一个最优化问题。通过解决这些子问题,我们可以得到整个问题的最优解。 在动态规划中,我们需要定义一个价值函数,它表示在当前状态下采取最优策略所能得到的最小成本。哈密顿-雅可比-贝尔曼方程就是用来计算这个价值函数的。具体来说,它是一个偏微分方程,描述了价值函数在时间和状态上的变化。 哈密顿-雅可比-贝尔曼方程推导可以分为两个步骤。首先,我们需要定义一个贝尔曼方程,它描述了价值函数在一个时间步长内的变化。然后,我们将这个贝尔曼方程推广到连续时间和状态空间上,得到哈密顿-雅可比-贝尔曼方程。 具体来说,贝尔曼方程可以表示为: V(s) = min_u {c(s,u) + γ ∑_s' p(s'|s,u) V(s')} 其中,V(s)表示在状态s下的价值函数,c(s,u)表示在状态s下采取行动u所产生的成本,p(s'|s,u)表示在状态s下采取行动u后转移到状态s'的概率,γ是一个折扣因子,用于平衡当前和未来的成本。 接下来,我们将这个贝尔曼方程推广到连续时间和状态空间上。我们定义一个哈密顿函数H(x,u,t),它表示在时间t和状态x下采取行动u所能得到的最小成本。哈密顿函数可以表示为: H(x,u,t) = min_v {c(x,u,v,t) + ∂V(x,t)/∂t + ∑_i=1^n f_i(x,u,v,t) ∂V(x,t)/∂x_i} 其中,c(x,u,v,t)表示在状态x下采取行动u和v所产生的成本,f_i(x,u,v,t)表示状态x在第i个维度上的变化率。 最后,我们可以得到哈密顿-雅可比-贝尔曼方程: ∂V(x,t)/∂t + min_u H(x,u,t) = 0 这个方程描述了价值函数在时间和状态上的变化。通过求解这个方程,我们可以得到最优策略和最小成本。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值