强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法

最新推荐文章于 2023-12-28 19:49:18 发布

菜且凶残_2017

最新推荐文章于 2023-12-28 19:49:18 发布

阅读量328

点赞数

分类专栏：强化学习文章标签：机器学习强化学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38800089/article/details/111409916

版权

强化学习专栏收录该内容

16 篇文章 6 订阅

订阅专栏

文章目录

强化学习总结(3-4)
- 无模型
- - 预测价值函数
  - - 蒙特卡洛
    - 时序差分（TD）学习

强化学习总结(3-4)

最近呢，搞完有模型的强化学习之后，接下来就开始搞无模型的强化学习，发现还是无模型的强化学习应用场景比较多，而且更加烧脑liaoer。

在这里插入图片描述

在这里插入图片描述

上面第一张图是我们的model-base RL，第二张图是我们的model-free RL，这里呢，可以看到model-base RL是没有和环境的一个交互，换句话说呢没有实际的交互，因为那个环境中的转移概率P我们是已知的，R也是已知的，我们只需要按照价值函数期望公式就能算出价值函数，以及optimal policy。然鹅，model-free RL它不知道P啊，它木得办法啊，它只能去交互，在实际操作中看看我各个状态间的转移概率是多些，转移的回报是多些。

无模型

预测价值函数

蒙特卡洛

所以，对于model-free的情况，它只能用蒙特卡洛的方法采样多个轨迹进行平均，才能得到价值函数啊。而我们的model-base用动态规划预测，它就不用了采样了啊，因为它都知道各个状态的转移情况也就是模型，所以能遍历所有的状态和动作。

时序差分（TD）学习

这里呢，和蒙特卡洛类似，只不过它是走m步(获得m个R)就更更新一下当前状态的价值函数，通过不停地迭代和bootsrapping，达到一个收敛状态，我们就说ok了，价值函数找到了。

下面就是两个的区别，翠花~，上酸。。图：

在这里插入图片描述

此前的内容都是value-base RL学派的内容，接下来讨论policy-base Rl学派的内容。

菜且凶残_2017

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法

强化学习总结(3-) 最近呢，搞完有模型的强化学习之后，接下来就开始搞无模型的强化学习，发现还是无模型的强化学习应用场景比较多，而且更加烧脑liaoer。上面第一张图是我们的model-base RL，第二张图是我们的model-free RL，这里呢，可以看到model-base RL是没有和环境的一个交互，换句话说呢没有实际的交互，因为那个环境中的转移概率P我们是已知的，R也是已知的，我们只需要按照价值函数期望公式就能算出价值函数，以及optimal policy。然鹅，model-fre
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。