【强化学习】QLearning

最新推荐文章于 2024-08-11 18:21:52 发布

轻春

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量4.8k

点赞数

分类专栏：机器学习机器学习荐货情报局文章标签：强化学习 q-learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010352603/article/details/78105877

版权

本文介绍了强化学习中的Q-Learning算法，包括算法思想、更新公式及其实现过程。通过Q-Table的学习和更新，解释了如何平衡探索与利用以达到更好的效果。文章提供了完整的代码实现链接。

摘要由CSDN通过智能技术生成

强化学习之Q Learning

标签： ReinforcementLearning QLearning
代码：https://github.com/gutouyu/ReinforcementLearning/tree/master

1. 算法思想

Q指的是状态动作效益。智能体Agent，每个时刻都有一个状态State，在该状态下，它可以采取一系列动作中的一个动作Action。Q就是指在状态State下采取动作Action所获得的收益。
我们的Agent就是根据这张表Q-Table来采取动作的。每采取一个动作Action，就会到达一个状态State，会得到一个奖励Reward（Reward可正可负）。

2. 更新公式

QLearning更新公式

Agent的学习过程，或者说是训练过程就是Q-Table的更新过程，也就是上式。在S状态下采取动作A，效用值是Q(S,A), α

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。