贝尔曼方程讲解

网格世界示例如下:
在这里插入图片描述在这里插入图片描述在这里插入图片描述贝尔曼方程

在这个网格世界示例中,一旦智能体选择一个动作,
它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么)
可以确切地预测奖励(而一般 MDP 则不同,奖励是从概率分布中随机抽取的)。
在这个简单示例中,我们发现任何状态的值可以计算为即时奖励和下个状态(折扣)值的和。
Alexis 提到,对于一般 MDP,我们需要使用期望值,因为通常即时奖励和下个状态无法准确地预测。的确,我们在之前的课程中发现,奖励和下个状态是根据 MDP 的一步动态特性选择的。在这种情况下,奖励 r和下个状态 s′ 是从(条件性)概率分布 p(s′,r∣s,a) 中抽取的,贝尔曼预期方程(对于 vπ)表示了任何状态 sss 对于_预期即时奖励和下个状态的预期_值的值:
vπ(s)=Eπ[Rt+1+γvπ(St+1)∣St=s]
计算预期值
如果智能体的策略 π 是确定性策略,智能体在状态 sss 选择动作 π(s),贝尔曼预期方程可以重写为两个变量 (s′ 和 r) 的和:
vπ(s)=∑s′∈S+,r∈Rp(s′,r∣s,π(s))(r+γvπ(s′))
在这种情况下,我们将奖励和下个状态的折扣值之和 (r+γvπ(s′))与相应的概率 p(s′,r∣s,π(s)) 相乘,并将所有概率相加得出预期值。
如果智能体的策略 π 是随机性策略,智能体在状态 s 选择动作 a的概率是 π(a∣s),贝尔曼预期方程可以重写为三个变量(s′、r 和 a)的和:
vπ(s)=∑s′∈S+,r∈R,a∈A(s)π(a∣s)p(s′,r∣s,a)(r+γvπ(s′))
在这种情况下,我们将奖励和下个状态的折扣值之和 (r+γvπ(s′)) 与相应的概率 π(a∣s)p(s′,r∣s,a) 相乘,并将所有概率相加得出预期值。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能学习者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值