强化学习笔记-08 Planning and Learning

tostq

于 2023-06-02 21:27:34 发布

阅读量583

点赞数

文章标签：笔记强化学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tostq/article/details/131007968

版权

文章介绍了在强化学习中如何结合model-based和model-free策略，通过构建可学习的环境模型来提高效率。讨论了Dyna算法及其变体，如Dyna-Q+、PrioritizedSweeping、Expectedvs.SampleUpdates、TrajectorySampling和Real-timeDynamicProgramming。还提到了MonteCarloTreeSearch在解决大规模状态空间问题上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前几篇我们介绍了一个重点概念model-base和model-free，其中model-base是建立在存在某个环境模型，从模型中可以获得状态、动作、奖励的转移信息，比如动态规划方法，当我们确定了状态动作的转换概率，此时我们可以通过递归的方式，迅速获得价值函数的估计。

$Q(s,a)\\ =\sum P(s',r|s,a)(r+V(s'))\\ =\sum P(s',r|s,a)(r+ \sum \pi (a'|s')Q(s',a'))$

在价值函数的更新过程中，一种方式是遍历所有状态-动作来完成更新，但如果状态-动作太多，而某些状态对于我们目标达成完全没有用，遍历所有状态进行更新的效率非常低，另一方面各状态的价值函数更新存在相互依赖，因此其更新顺序也会影响训练的效率，因为所谓的planning是合理地规划状态更新步骤。

而当我们对于环境模型是完全未知时，就必须要通过同环境进行交互采样来获得真实累积收益 $G_t$ ，然后通过其来更新价值函数，这种方法称为model-free，MC和TD算法就属于此类，其通过采样来学习。这类方法的好处是其获

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。