强化学习Bellman Equation-Today3

Bellman Equation主要包含一个核心概念和一个基本工具:state value状态值 和 the Bellman Equation贝尔曼公式,贝尔曼公式揭示了不同状态之间的联系。

return为整个轨迹所获得的reward,求解贝尔曼公式就是找到一个最优策略来获得return最多。

那么state value和return的区别是什么呢?return是针对一个策略求最优解,而state value是可以针对多个策略求最优解,所以在贝尔曼公式中,return是state value求解策略的特例。

引入一个概念:discoubted return:

G_{t}=R_{t+1}+\gamma R_{t+2}+......=R_{t+1}+G_{t+1},其中\gamma \in[0,1)

state value即为G_{t}的均值,R即为reward。

v_{\pi }\left ( s \right )=E[G_{t}|S_{t}=s]v_{\pi }\left ( s \right )为state value。

以上公式经过改写变为贝尔曼公式:

v_{\pi }\left ( s \right )=\sum_{a}^{}\pi (a|s)(\sum_{r}^{}p(r|s,a)r+\gamma \sum_{s^{,}}^{}p(s^{,}|s,a)v_{\pi }(s^{,})),\forall s\in S

其中前面为immediate reward 即立即奖励,后面为延迟的奖励,每一个状态对应每一个贝尔曼公式,其中写成Matrux-vactor form(矩阵向量形式)为:

v_{\pi }=r\pi +\gamma p_{\pi }v_{\pi }

虽然可以解出v_{\pi }得到state value,但对于比较庞大的情况下,一般使用iterative soluation迭代解决:

v_{k+1}=r_{\pi }+ \gamma p_{\pi }v_{k},当k\rightarrow\propto时,通过不断迭代求解。

得到state value后,也可以求解action value,不同的是,action value是在action固定的情况下求得的:

q_{\pi }\left ( s,a \right )=E[G_{t}|S_{t}=s,A_{t}=a]

action value为state value的一个行动,就像走迷宫一样,如果有一百条路,那么state value就是每条路的policy乘以概论,而action value就是其中的一条路,因此,action value为state value的后半整体:

q_{\pi }\left ( s,a \right )=\sum_{a}^{}\pi (a|s)(\sum_{r}^{}p(r|s,a)r+\gamma \sum_{s^{,}}^{}p(s^{,}|s,a)v_{\pi }(s^{,})),\forall s\in S

贝尔曼公式是策略评估的一个工具,policy evaluation就是给出policy,列出贝尔曼公式,求解贝尔曼公式,最后得到state value进行评估,value就是价值,价值越大,策略越好。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值