强化学习总结(3-4)——无模型的价值函数的预测,蒙特卡洛和TD时序差分方法

强化学习总结(3-4)

​ 最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强化学习应用场景比较多,而且更加烧脑liaoer。

在这里插入图片描述

在这里插入图片描述

上面第一张图是我们的model-base RL,第二张图是我们的model-free RL,这里呢,可以看到model-base RL是没有和环境的一个交互,换句话说呢没有实际的交互,因为那个环境中的转移概率P我们是已知的,R也是已知的,我们只需要按照价值函数期望公式就能算出价值函数,以及optimal policy。然鹅,model-free RL它不知道P啊,它木得办法啊,它只能去交互,在实际操作中看看我各个状态间的转移概率是多些,转移的回报是多些。

无模型

预测价值函数

蒙特卡洛

​ 所以,对于model-free的情况,它只能用蒙特卡洛的方法采样多个轨迹进行平均,才能得到价值函数啊。而我们的model-base用动态规划预测,它就不用了采样了啊,因为它都知道各个状态的转移情况也就是模型,所以能遍历所有的状态和动作。

时序差分(TD)学习

​ 这里呢,和蒙特卡洛类似,只不过它是走m步(获得m个R)就更更新一下当前状态的价值函数,通过不停地迭代和bootsrapping,达到一个收敛状态,我们就说ok了,价值函数找到了。

下面就是两个的区别,翠花~,上酸。。图:

在这里插入图片描述
在这里插入图片描述
此前的内容都是value-base RL学派的内容,接下来讨论policy-base Rl学派的内容。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值