Q-learning简化过程

最新推荐文章于 2024-12-14 22:45:09 发布

？？QQ

最新推荐文章于 2024-12-14 22:45:09 发布

阅读量3.3k

点赞数 1

分类专栏：强化学习：从入门，到放弃文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Liverpool_05/article/details/80239182

版权

强化学习：从入门，到放弃专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Q learning里的核心思想是如下公式：

其中，第一个Q（S, A）是更新后的值，第二个 Q（S, A）是Q表中值，a是指学习效率，r是奖励值。\gamma是折扣因子。第三个Q是指要选取Q表中的最大值。最后一个表示Q表中值，与第二个Q一样。

现在通过书中的伪代码来展示Q-learning的过程：

1. 初始化Q-Table：Q-table|S|*|A|的矩阵。其中，|S|代表了所有的状态，|A|代表了所有的动作。矩阵中各个元素首先初始化为0。

2. 进入循环1

3. 进入循环2：

3.1 带入当前状态。若为第一次循环，此处需随机选择一个状态作为初始状态；

3.2 为该状态选择一个动作：需注意，此处有一个学习效率。选择动作的方法为：agent有1-a的概率，随机选择动作；有a的概率，选择对应Q值最大的动作；

3.3 据当前状态S和当前动作A，得出下一个状态S‘和奖励R；

3.4 通过上图公式更新Q-table；

3.5 更新状态。

注意：循环1的结束可以为Q-table中的值收敛。也可以为一个固定值，例如整个程序运行1000次，停止。循环2的结束条件为到达最终状态。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。