强化学习-Q-learning

最新推荐文章于 2024-05-30 10:55:22 发布

睡不醒的书童

最新推荐文章于 2024-05-30 10:55:22 发布

阅读量577

点赞数 1

分类专栏：笔记深度强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38205273/article/details/115228070

版权

QLearning是一种强化学习算法，通过建立Q-table存储不同状态下采取动作的预期收益。算法核心是通过Q值选择最大化收益的动作，初始时对Q值进行随机初始化，然后通过不断迭代更新，最终达到收敛。举例说明了在建筑物房间问题中如何运用Q-learning寻找最优路径。

摘要由CSDN通过智能技术生成

QLearning是强化学习算法中value-based 的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

算法：
在这里插入图片描述
Q更新公式：

S1 为 s 对应的下一个状态有（1，2，4都是状态3对应的非负状态），随机地，我们选择其中一个座位s1.

例子：
假设我们在一个建筑物中有5个房间，这些房间由门相连，如下图所示。我们将每个房间编号为0到4。建筑物的外部可以视为一个大房间（5）。请注意，1号和4号门从5号房间（外部）通向建筑物。
在这里插入图片描述
初始化：-1不可达，0可达，100可达终点（其中状态2表示起点，5表示终点）

最低0.47元/天解锁文章

睡不醒的书童

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。