【强化学习】贝尔曼公式 - bellman equation

return作用

迷宫游戏
还是用这个迷宫游戏说。
首先明确,不撞墙到终点比撞墙到终点好。路径越短到终点越好。

  1. 不撞墙到终点比撞墙到终点好。你可以把撞墙这个reward设置成负数,不撞墙设置成0。那么在最终return进行累加的时候,不撞墙的return就会大。
  2. 路径越短到终点越好。我们计算return的时候还会乘上一个discount rate。介于0~1之间。走了几步这个rate就几次方再乘上reward进行求和。所以越后面到终点获得到的reward乘上这个rate就会越小
    在这里插入图片描述
    所以return可以来进行衡量我目前这个路径到底好还是不好

return计算

return可以衡量路径好还是不好那么也可以用来说明这个决策好还是不好。可以进行比较了。所以就需要进行对于return的计算。
比如说给出一个policy怎么计算他在这个policy下的return值为多少。
在这里插入图片描述
可以列出return式子长这样
在这里插入图片描述
可以用巧方法,把后面这个discount rate提出去变这样
在这里插入图片描述
每个都这样变换一下变成这样
在这里插入图片描述
然后把这几个标量组合到一起去,写成向量形式
在这里插入图片描述

然后就可以对这个矩阵方程进行求解,就可以解出这个V的向量值,也就是对应每一个return

这个就是贝尔曼公式
在这里插入图片描述

state value

刚刚的这个例子的策略是一个state只有一个action,但实际上我一个state不一定只有有一个action,可能会有好多个action进行选择做。所以需要新的指标,这个就是state value。
return实际上是针对一个trajectory进行一个reward进行一个累计。
那么如果我一个state有好几个action进行选择,然后每一个action进入了不同state,他们又有好几个action,推下去就有好多个好多个trajectory,也就是有好多个return。
state value就是把所有他们加起来算期望。也就是我只关心我的起点是这个state。只要是以这个state为起点就加进来算期望。最终得到的就是这个状态的state value
然后注意的是,这个state value也是要基于这个决策的。所以state value实际上会有两个参数,一个是policy一个是state。
例子
在这里插入图片描述
然后刚刚的那个return的例子,以及我们学习过的马尔科夫的性质,可以察觉到state value可以写成一个递推的式子。数学上确实也可以做的到。严谨的推理长这样:
在这里插入图片描述
把GT也就是return的第一步拆解了出来,再拆开期望进行分离,前部分就是关于行为获得reward的期望,后面就是discount rate乘上转移后状态的期望
在这里插入图片描述
然后去仔细分析一下这个概率取值。就会发现这个代表当前这个状态的各个行为的reward的期望
在这里插入图片描述
同样这个自习分析一下概率,可以发现这一项代表能够根据s状态转移到的不同状态对应的state value的期望

然后把前后两项相同的条件概率提出去就可以得到贝尔曼公式
在这里插入图片描述
参考第二个return特例,也可以写出贝尔曼公式的向量形式
在这里插入图片描述

action value

最后再说说action value。
return值可以反映我这个trajectory好不好。那么他进行期望,得到的state value就可以说明我这个状态是否是更接近我的目标的。
那么我们还需要进行考虑的是,我在我这个state 我到底需要进行那个action?所以就有action value。
感觉一下,我的做出action是不是有一个reward,然后我进行了action是不是到了一个新的state。所以我的action value就是把他们加起来。然后有多个action,算期望就行。
同理action value主要拿来评判我这个action到底哪个会好一点的。
有数学定义与证明。
这里略

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值