坚持学习 -- 强化学习（2）

最新推荐文章于 2023-04-14 14:46:23 发布

彩虹极光

最新推荐文章于 2023-04-14 14:46:23 发布

阅读量120

点赞数

分类专栏：强化学习文章标签： reinforcement learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42374915/article/details/119885428

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Q-Learning

(1). 什么是Q-Learning :

Q-Learning是一种决策过程，选择潜在奖励大的行为。本次行为选择后，产生下一次状态。

根据Q-table中的状态（s1,s2,s3...）选择相应的奖励值（R）较大的行为（a1,a2,a3...）。

(2). 此处有两个值需要注意：估计值和现实值。

估计值: 当到达某一状态(s1)，根据Q-table估计下一步的行为是奖励值较大的行为（a2）。也就是估计出的Q值是 Q(s1,a2)

现实值: 由上一次的奖励值（R）加上本次Q-table中较大奖励值的行为（max Q(s2) ）产生的影响。也就是现实中的Q值是 R + $\lambda$ * maxQ(s2)

两者之间的差距 = 现实值 - 估计值

(3). 通过这个上一次的Q值和这次产生的差距值计算出新的Q值：

New Q(s1,a2) = Old Q(s1,a2) + $\alpha$ *差距值 （其中 $\alpha$ 是学习效率）

New Q(s1,a2) = Old Q(s1,a2) + $\alpha$ * [ ( R + $\lambda$ * maxQ(s2) ) - Q(s1,a2) ]

(4). Q-Learning的算法：

(5). 算法中的参数意义：

$\varepsilon$ -greedy ：用在决策上的一种策略。例如 $\varepsilon$ = 0.9，说明有90%的可能按照Q-table中的最优值选择行为，10%的可能性随机产生行为。

$\alpha$ ：是学习效率。决定本次的误差有多少需要学习。（ $\alpha$ < 1）

$\gamma$ ：是未来奖励的衰减值。

因为s1可以转化为以下公式：

继而便可知，s1可以用之后的每一个奖励值组合表示

但是越往后奖励值的分量就越轻。

详细信息请查看莫烦Python： https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-q-learning/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
坚持学习 -- 强化学习（2）

Q-Learning(1). 什么是Q-Learning :Q-Learning是一种决策过程，选择潜在奖励大的行为。本次行为选择后，产生下一次状态。根据Q-table中的状态（s1,s2,s3...）选择相应的奖励值（R）较大的行为（a1,a2,a3...）。(2). 此处有两个值需要注意：估计值和现实值。估计值: 当到达某一状态(s1)，根据Q-table估计下一步的行为是奖励值较大的行为（a2）。也就是估计出的Q值是Q(s1,a2)现实值...
复制链接

扫一扫

专栏目录

彩虹极光 CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

154万+: 周排名

78万+: 总排名

382: 访问

: 等级

30: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

强化学习 3篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。