在上一次的状态价值函数图中,对于每一个方格我们从结束状态开始计算每一个值,如下图
如果我们想知道某一状态的值可以用接下来的一个状态的折扣值(图中为1)+ 立刻的回报。
下图就是贝尔曼预期方程
代表着我们可以将马尔科夫决策过程任何状态的值表示为,即时奖励和下个状态的折扣值。
强化学习&基础1.8 | 贝尔曼方程
最新推荐文章于 2024-06-09 10:52:59 发布
在上一次的状态价值函数图中,对于每一个方格我们从结束状态开始计算每一个值,如下图
如果我们想知道某一状态的值可以用接下来的一个状态的折扣值(图中为1)+ 立刻的回报。
下图就是贝尔曼预期方程
代表着我们可以将马尔科夫决策过程任何状态的值表示为,即时奖励和下个状态的折扣值。