q-learning精讲

最新推荐文章于 2024-05-30 09:00:17 发布

Adam婷

最新推荐文章于 2024-05-30 09:00:17 发布

阅读量1.2w

点赞数 1

分类专栏： AI程序员算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41697507/article/details/86772160

版权

AI程序员同时被 3 个专栏收录

166 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

161 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

161 篇文章 4 订阅

订阅专栏

Q-learning

Q-learning是一种用于机器学习的强化学习技术。 Q-learning的目标是学习一种策略，告诉Agent在什么情况下要采取什么行动。它不需要环境模型，可以处理随机转换和奖励的问题，而无需进行调整。

对于任何有限马尔可夫决策过程（FMDP），Q学习找到一种最优的策略，即从当前状态开始，它在任何和所有后续步骤中最大化总奖励的预期值。在给定无限探索时间和部分随机策略的情况下，Q学习可以为任何给定的 FMDP 确定最佳动作选择策略。“Q”命名函数返回用于提供强化的奖励，并且可以说代表在给定状态下采取的动作的“质量”。

Reinforcement learning
强化学习涉及一个代理，一组状态 S，以及一组动作A. 通过在A中执行动作，Agent程序从一个状态转换到另一个状态。在特定状态下执行动作为Agent提供奖励（数字分数）。

Agent的目标是最大化其总（未来）奖励。它通过将未来状态可获得的最大奖励添加到实现其当前状态的奖励来实现这一点，从而通过潜在的未来奖励有效地影响当前行动。该潜在奖励是从当前状态开始的所有未来步骤的奖励的预期值的加权和。
例如，考虑登上火车的过程，其中奖励是通过登机总时间的负值来衡量的（或者，登上火车的费用等于登机时间）。一种策略是一旦打开就进入火车门，最大限度地缩短了自己的初始等待时间。然而，如果火车很拥挤，那么在你进入大门的最初动作之后你将会进入缓慢状态，因为当你试图登机时，人们正在打你离开火车。总的登机时间或成本是：
0秒等待时间+ 15秒战斗时间
第二天，

了解本专栏

超级会员免费看

关注

1
点赞
踩
39

收藏

觉得还不错? 一键收藏
打赏
0
评论
q-learning精讲

Q-learningQ-learning是一种用于机器学习的强化学习技术。 Q-learning的目标是学习一种策略，告诉Agent在什么情况下要采取什么行动。它不需要环境模型，可以处理随机转换和奖励的问题，而无需进行调整。对于任何有限马尔可夫决策过程（FMDP），Q学习找到一种最优的策略，即从当前状态开始，它在任何和所有后续步骤中最大化总奖励的预期值。在给定无限探索时间和部分随机策略的情况...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Adam婷 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。