什么是Q-Learning算法？

最新推荐文章于 2024-03-18 21:53:43 发布

梅森姑娘

最新推荐文章于 2024-03-18 21:53:43 发布

阅读量7.8k

点赞数 30

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JMU_Ma/article/details/104790567

版权

机器学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

文章目录

前言
- 什么Q-Learning算法
- 实际问题讲解
文档讲解
最后的话

前言

Q-Learning是强化学习中的一个基础算法，尽管这个算法属于在强化学习中比较基础的一个方法，但是确实十分巧妙。我认为在一定程度上对于我理解机器学习也有很大的帮助。

什么Q-Learning算法

强化学习中的一个经典算法——Q Learning。首先了解一下强化学习包括什么？——状态(state)、奖励(Reward)、行为(Action)。

因为在Q-Learning算法中加入一个叫做Q表的东西，Q-Learning因此命名。Q表包括一定行为下，所基于的反馈。

Q为动作效用函数（action-utility function），用于评价在特定状态下采取某个动作的优劣。它是Agent的记忆。
在这里插入图片描述

实际问题讲解

拿一个比较经典的问题来分析，方便理解。
在这里插入图片描述
应该都玩过这款游戏。我们讲小鸟看为智能体(Agent)，接下来我们对小鸟进行建模。用强化学习的元素来看问题。我们将小鸟所处在的位置看为State，小鸟是否跳看为动作Action，如果小鸟没死作为Reward。

我们对模型的变量进行分析。通过State能够得到什么信息呢？或者要的得到什么信息呢？我们要得到的是关于Agent下一步该怎么行动。因此我们需要引入，Agent现在所在的位置。
在这里插入图片描述
我们对这个进行逐帧的读取，Agent距离管道口的 $\triangle{X}$ 和 $\triangle{Y}$ 距离，如果Agent如果是小鸟活着时，每一帧给予1的奖赏；若死亡，则给予-1000的奖赏。

按照这个思路，我们最终可以得到一个很快能得到高分的结果。

文档讲解

在这里插入图片描述

最后的话

第一次看到Q-Learning算法，感觉这个算法十分神奇。有一种感觉用比较简单的算法去解决一个很难的问题的那种感觉，因此在网路上找到一些写的比较好的整合起来。

关注

30
点赞
踩
118

收藏

觉得还不错? 一键收藏
6
评论
什么是Q-Learning算法？

Q-Learning是强化学习中的一个基础算法，尽管这个算法属于在强化学习中比较基础的一个方法，但是确实十分巧妙。我认为在一定程度上对于我理解机器学习也有很大的帮助。
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。