Q Learning学习笔记

Q Learning学习笔记

这两天跟着莫烦大神的视频将强化学习(Reinforcement Learning)中的Q Learning学了一遍,颇有收获,便记录于此,希望大家不吝赐教,欢迎补充纠错。

一、什么是强化学习?

​ 强化学习是一类算法,是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操作,使自己的行为得到高分。

​ 它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得更多的累计奖励。


二、强化学习方法分类

  1. Model-free 和 Model-based

    如果不理解环境,环境给了什么就是什么,我们就把这种方法叫做 Model-free,这里的 Model 就是用模型来表示环境,理解环境就是学会了用一个模型来代表环境,所以这种就是 Model-based 方法。

  2. 基于概率和基于价值

    基于概率是强化学习中最直接的一种,根据概率采取行动,所以每种动作都有可能被选中,只是概率不同。而基于价值的方法输出则是所有动作的价值,根据最高价值来选择动作。

  3. 回合更新和单步更新

    假设强化学习就是在玩游戏,游戏回合有开始和结束。回合更新指的是游戏开始后,需要等待游戏结束再总结这一回合,再更新我们的行为准则。而单步更新则是在游戏进行中每一步都在更新,不用等待游戏的结束,这样边玩边学习。

  4. 在线学习和离线学习

    所谓在线学习,就是指必须本人在场,并且一定是本人一边行动边一学习。而离线学习是你可以选择自己行动,也可以选择看着别人行动,通过看别人行动来学习别人的行为准则,离线学习 同样是从过往的经验中学习,但是这些过往的经历没必要是自己的经历,任何人的经历都能被学习。

在以上分类中,Q Learning的特征可以用下面的一张图来表述:
在这里插入图片描述


三、Q Learning算法

Q Learning只是强化学习众多方法中的一种,并且是很有名的一类算法,这里主要讲Q Learning,强化学习中其他方法比如Sarsa、Deep Q Network、Policy Gradient等就不在这里赘述了。想要通过生活中的例子入门的可以去看莫大神写的小孩写作业、看电视的场景,帮助我们更好地理解Q Learning.

Q Learning整体算法

在这里插入图片描述

不想看密密麻麻的英文的可以看下面我做的几张PPT截图:
在这里插入图片描述
在这里插入图片描述

上面图片的解释:这只是一次迭代过程,经过众多次迭代、一步步去学习,就会训练得到一个表现良好的Q表,这个Q表会指导我们在每个状态选择最佳动作。
Epsilon Greedy 是用在选择动作上的一种策略,比如 epsilon = 0.9 时, 就说明有 90% 的情况我会按照 Q 表的最优值选择行为,10% 的时间使用随机选行为。如果不根据这些策略去选取动作,只是简单地根据选择此状态下Q值最大的,那么其他动作就没有机会得到执行,它们的Q值也就无法更新,也就达不到训练优化的目的,就极有可能陷入局部最优。这样做的目的是让其有机会跳出局部最优。
在这里插入图片描述

PS:alpha是学习率,来决定这次的误差有多少要被学习的,alpha是一个小于1 的数。gamma 是对未来 reward 的衰减值。


暂时写到这里,等我想到什么再补充上去。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值