Q Learning学习笔记

先有后优07

已于 2022-03-28 10:46:20 修改

阅读量3.9k

点赞数

分类专栏： Q Learning 文章标签：机器学习 python

于 2022-03-28 10:42:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42750982/article/details/123789249

版权

Q Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Q Learning学习笔记

这两天跟着莫烦大神的视频将强化学习（Reinforcement Learning）中的Q Learning学了一遍，颇有收获，便记录于此，希望大家不吝赐教，欢迎补充纠错。

文章目录

- Q Learning学习笔记

一、什么是强化学习？

强化学习是一类算法，是让计算机实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，最后找到规律，学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为，从而一步步学习如何操作，使自己的行为得到高分。

它主要包含四个元素，Agent、环境状态、行动、奖励，强化学习的目标就是获得更多的累计奖励。

二、强化学习方法分类

Model-free 和 Model-based

如果不理解环境，环境给了什么就是什么，我们就把这种方法叫做 Model-free，这里的 Model 就是用模型来表示环境，理解环境就是学会了用一个模型来代表环境，所以这种就是 Model-based 方法。
基于概率和基于价值

基于概率是强化学习中最直接的一种，根据概率采取行动，所以每种动作都有可能被选中，只是概率不同。而基于价值的方法输出则是所有动作的价值，根据最高价值来选择动作。
回合更新和单步更新

假设强化学习就是在玩游戏，游戏回合有开始和结束。回合更新指的是游戏开始后，需要等待游戏结束再总结这一回合，再更新我们的行为准则。而单步更新则是在游戏进行中每一步都在更新，不用等待游戏的结束，这样边玩边学习。
在线学习和离线学习

所谓在线学习，就是指必须本人在场，并且一定是本人一边行动边一学习。而离线学习是你可以选择自己行动，也可以选择看着别人行动，通过看别人行动来学习别人的行为准则，离线学习同样是从过往的经验中学习，但是这些过往的经历没必要是自己的经历，任何人的经历都能被学习。

在以上分类中，Q Learning的特征可以用下面的一张图来表述：
在这里插入图片描述

三、Q Learning算法

Q Learning只是强化学习众多方法中的一种，并且是很有名的一类算法，这里主要讲Q Learning，强化学习中其他方法比如Sarsa、Deep Q Network、Policy Gradient等就不在这里赘述了。想要通过生活中的例子入门的可以去看莫大神写的小孩写作业、看电视的场景，帮助我们更好地理解Q Learning.

Q Learning整体算法

在这里插入图片描述

不想看密密麻麻的英文的可以看下面我做的几张PPT截图：
在这里插入图片描述

上面图片的解释：这只是一次迭代过程，经过众多次迭代、一步步去学习，就会训练得到一个表现良好的Q表，这个Q表会指导我们在每个状态选择最佳动作。
Epsilon Greedy 是用在选择动作上的一种策略，比如 epsilon = 0.9 时, 就说明有 90% 的情况我会按照 Q 表的最优值选择行为，10% 的时间使用随机选行为。如果不根据这些策略去选取动作，只是简单地根据选择此状态下Q值最大的，那么其他动作就没有机会得到执行，它们的Q值也就无法更新，也就达不到训练优化的目的，就极有可能陷入局部最优。这样做的目的是让其有机会跳出局部最优。
在这里插入图片描述

PS：alpha是学习率，来决定这次的误差有多少要被学习的，alpha是一个小于1 的数。gamma 是对未来 reward 的衰减值。

暂时写到这里，等我想到什么再补充上去。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。