Q-Learning之MDP问题

最新推荐文章于 2024-08-15 13:20:27 发布

dlphay

最新推荐文章于 2024-08-15 13:20:27 发布

阅读量5.2k

点赞数 2

分类专栏： RL 文章标签： MDP QL 增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dlphay/article/details/70070854

版权

本文探讨了增强学习中的Markov决策过程（MDP）问题，强调了State、Action和Reward在MDP中的角色。通过Policy连接State和Action，策略评估函数Q(s)用于衡量Policy的潜在价值。增强学习的核心是通过不断试验优化Q(s)，使其收敛到最优策略。

摘要由CSDN通过智能技术生成

增强学习需要考虑的问题是Agent与Environment多参数之间交互的任务，同样会存在闭环控制链，来使系统达到我们所预期的最优状态。对于绝大多数的加强学习都可以模型化为MDP问题（Figure2 中间部分），在MDP问题中，提到State是完全可观察的全部环境的State ，并且下一个State却决于当前的State和当前的Action。在此基础上，Policy起着连接State和Action之间关键性作用，对于当前的State，Policy会预测所有Action的潜在价值期望，做出决策，同时对于此次的决策的结果，在一套完善的策略评估系统上会得到一个评估Reward，在此过程中，将会产生三个中间变量：State，Action以及Reward，可以作为一次SAMPLE。重复这一试验过程，将会得到（SAMPLES）样本序列，反过来，我们用SAMPLES去更新和改进Policy，这里引入一个策略价值评估函数Q（s）来衡量目前Policy对于未来做出决策的潜在价值。

增强学习算法核心思想：通过反复试验，使得价值函数Q（s）收敛到最优

本质上：使用当前策略产生新的样本，然后使用新的样本评估策略的价值，通过策略的价值更新和提高策略，反复试验。

理论可以证明：最终策略将收敛到最优。

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。