强化学习概述

这是学完莫烦强化学习课程总结的笔记,对于理论部分接下来精读论文深入理解,所以博客内容会持续更新。先将博客的主题定下来,避免时间长而遗忘了。
推荐论文:https://arxiv.org/pdf/1810.06339.pdf
前言:什么是强化学习?
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习 策略 以达成 回报最大化实现特定目标的问题 。(注意与监督学习区别:是否有数据及标签)

1. 强化学习分类

强化学习的求解方法从不同角度可以有多种分类模式,这里我们将这些方法分为基于概率算法(Policy-Based RL)与基于值算法(Value-Based RL)。

  1. 基于概率算法:依据概率选取动作,即每个动作都有被选取的机会,只是概率大小不一样,可用于连续动作的选取。(举例:Policy Gradients)
  2. 基于值算法:选取值最大的动作,更具确定性。 (举例:Q Learning,Sarsa)
  3. 基于概率与基于值算法结合:设置两个对象,一个对象(Actor)基于概率选取动作,另一个对象(Critic)对该动作以值形式进行打分。(举例:Actor-Critic)

2. Q Learning算法

2.1 流程

在这里插入图片描述

2.2 核心

Q Learning算法的核心就在于延迟的奖励,即不仅考虑眼前的奖励,并且以衰减的方式考虑未来状态的奖励。
在这里插入图片描述
注意以下几点:

  1. Q Learning 中的 Q值 表示什么?
    这里可以理解成基于值的强化学习中的值,不要简单地理解成奖励,因为这不仅仅是奖励,应该是与奖励、初始Q表、alpha相关的。
    在一个初始化 全为0 的Q表中,第一个更新的Q值应该是获得奖励的上一个状态,因为这时候会有非零值出现即奖励。
  2. Q现实Q估计 怎么理解?
    Q估计就是根据已有的Q表估计的Q值,而Q现实是考虑 --> 采取动作造成状态变化的奖励与新状态下的最大Q值的共同作用。
  3. 如何理解超参数gamma的作用?
    越远的状态对当前状态采取的动作的影响越小,也就是当前的采取的动作主要考虑下一个状态Q值的影响。(注意当前状态采取的动作与下一个状态有关。)
    可以表达成:
    在这里插入图片描述

3. Sarsa算法

3.1 流程

在这里插入图片描述

3.2 核心

在这里插入图片描述

当 Sarsa 和 Q-Learning 处在 状态s 时,都选择可带来最大 回报r动作a,这样可到达 状态s’。而在下一步,如果使用 Q-Learning, 则会观察在 新状态s’ 上哪个动作会带来最大 回报r(不会真正地执行该动作,仅用来更新Q表),新状态s’ 上做决定时,再基于更新后的 Q表 选择动作。

而 Sarsa 是实践派,在 新状态s’ 这一步估算的动作也是接下来要执行的动作,所以 Q(s, a) 的现实值也会稍稍改动,去掉maxQ,取而代之的是在 新状态s’ 上实实在在选取的 动作a’ 对应的Q值,最后像 Q-Learning 一样求出现实和估计的差距并更新Q表里的Q(s, a)。

注意:Sarsa 与 Q-Learning 算法很相似,区别在于 下一个状态选择何种动作。在 Q-Learning 算法中,下一状态选择的动作由 更新之后的Q表 决定;而在 Sarsa算法 中,在下一状态行为更加具有确定性,直接选取下一状态Q值最大的动作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值