强化学习(2):Bellman方程

1、状态值函数的计算

1)某个状态的值函数等于该状态下所有状态行为值函数 q π ( s , a ) q_\pi(s,a) qπ(s,a)的加权和,即: v π ( s ) = E π [ ∑ a ∈ A π ( a ∣ s ) q π ( s ∣ a ) ] v_{\pi}(s)=E_\pi[\sum_{a\in A}\pi(a|s)q_\pi(s|a)] vπ(s)=Eπ[aAπ(as)qπ(sa)]
2)这里的权重就是该状态下采取该行为的概率, 即策略 π ( a ∣ s ) \pi(a|s) π(as)

2、状态行为值函数

状态行为值函数等于该状态、该行为执行后的即时奖励(的期望)。加上它所导致的所有下一步状态的折减后状态值函数 v π ( s ) v_\pi(s) vπ(s)的加权和。(权重是改状态下,该行为所导致的下一步状态的概率,即状态转移概率矩阵.)

在这里插入图片描述
其中: q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P S S ′ a v π ( s ′ ) q_\pi(s,a)=R_s^a+\gamma\sum_{s^{'}\in S}P^a_{SS^{'} }v_\pi(s^{'}) qπ(s,a)=Rsa+γsSPSSavπ(s)
R s a = E [ R t + 1 ∣ S t = s , A t = a ] R_s^a=E[R_{t+1}|S_t=s,A_t=a] Rsa=E[Rt+1St=s,At=a]

Bellman方程其实是 v π ( s ) v_\pi(s) vπ(s) q π ( s , a ) q_{\pi}(s,a) qπ(s,a)自身以及相互之间的递推关系。
状态值函数的递归关系:
在这里插入图片描述
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) v_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma \sum_ {s^{'}\in S}P_{ss^{'}}^av_\pi(s^{'})) vπ(s)=aAπ(as)(Rsa+γsSPssavπ(s))
状态行为值函数之间的递归关系:
在这里插入图片描述
q π ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ ∑ a ′ ∈ A π ( a ′ ∣ s ′ q π ( s ′ , a ′ ) ) q_\pi(s,a)=R_s^a+\gamma \sum_{s^{'}\in S}P_{ss^{'}}\sum_{a^{'}\in A}\pi(a^{'}|s^{'}q_{\pi}(s^{'},a^{'})) qπ(s,a)=Rsa+γsSPssaAπ(asqπ(s,a))
在这里插入图片描述
根据公式计算 s 4 s_4 s4的状态值函数:
v ( s 4 ) = 0.5 × ( 1 + 0.2 × ( − 1.3 ) + 0.3 × 2.7 + 0.4 × 7.4 ) + 0.5 × 10 v(s_4)=0.5\times(1+0.2\times(-1.3)+0.3\times2.7+0.4\times7.4)+0.5\times10 v(s4)=0.5×(1+0.2×(1.3)+0.3×2.7+0.4×7.4)+0.5×10

3、最优价值函数

3.1、最优状态值函数

  最优值函数 v ∗ ( s ) v_*(s) v(s)是在从所有策略产生的状态值函数中,选取使状态s价值最大的函数,即: v ∗ ( s ) = max ⁡ π v π ( s ) v_*(s)={\max\limits_{\pi}} v_\pi(s) v(s)=πmaxvπ(s)

3.2、最优状态行为值函数

  最优状态行为值函数 q ∗ ( s , a ) q^*(s,a) q(s,a)为在所有策略中最大的状态-行为值函数,即 q ∗ ( s , a ) = max ⁡ π q π ( s , a ) q^*(s,a)=\max\limits_\pi q_\pi(s,a) q(s,a)=πmaxqπ(s,a)

  • 9
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值