什么是Q-Learning算法?

前言

Q-Learning是强化学习中的一个基础算法,尽管这个算法属于在强化学习中比较基础的一个方法,但是确实十分巧妙。我认为在一定程度上对于我理解机器学习也有很大的帮助。

什么Q-Learning算法

强化学习中的一个经典算法——Q Learning。首先了解一下强化学习包括什么?——状态(state)、奖励(Reward)、行为(Action)。

因为在Q-Learning算法中加入一个叫做Q表的东西,Q-Learning因此命名。Q表包括一定行为下,所基于的反馈。

Q为动作效用函数(action-utility function),用于评价在特定状态下采取某个动作的优劣。它是Agent的记忆。
在这里插入图片描述

实际问题讲解

拿一个比较经典的问题来分析,方便理解。
在这里插入图片描述
应该都玩过这款游戏。我们讲小鸟看为智能体(Agent),接下来我们对小鸟进行建模。用强化学习的元素来看问题。我们将小鸟所处在的位置看为State,小鸟是否跳看为动作Action,如果小鸟没死作为Reward

我们对模型的变量进行分析。通过State能够得到什么信息呢?或者要的得到什么信息呢?我们要得到的是关于Agent下一步该怎么行动。因此我们需要引入,Agent现在所在的位置。
在这里插入图片描述
我们对这个进行逐帧的读取,Agent距离管道口的 △ X \triangle{X} X △ Y \triangle{Y} Y距离,如果Agent如果是小鸟活着时,每一帧给予1的奖赏;若死亡,则给予-1000的奖赏

按照这个思路,我们最终可以得到一个很快能得到高分的结果。

文档讲解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

最后的话

第一次看到Q-Learning算法,感觉这个算法十分神奇。有一种感觉用比较简单的算法去解决一个很难的问题的那种感觉,因此在网路上找到一些写的比较好的整合起来。

  • 30
    点赞
  • 118
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值