强化学习概述

最新推荐文章于 2024-08-11 18:21:52 发布

好运来2333

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量397

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_33254870/article/details/104545861

版权

强化学习专栏收录该内容

7 篇文章 11 订阅

订阅专栏

这是学完莫烦强化学习课程总结的笔记，对于理论部分接下来精读论文深入理解，所以博客内容会持续更新。先将博客的主题定下来，避免时间长而遗忘了。
推荐论文：https://arxiv.org/pdf/1810.06339.pdf
前言：什么是强化学习？
强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。（注意与监督学习区别：是否有数据及标签）

1. 强化学习分类

强化学习的求解方法从不同角度可以有多种分类模式，这里我们将这些方法分为基于概率算法（Policy-Based RL）与基于值算法（Value-Based RL）。

基于概率算法：依据概率选取动作，即每个动作都有被选取的机会，只是概率大小不一样，可用于连续动作的选取。（举例：Policy Gradients）
基于值算法：选取值最大的动作，更具确定性。（举例：Q Learning，Sarsa）
基于概率与基于值算法结合：设置两个对象，一个对象（Actor）基于概率选取动作，另一个对象（Critic）对该动作以值形式进行打分。（举例：Actor-Critic）

2. Q Learning算法

2.1 流程

在这里插入图片描述

2.2 核心

Q Learning算法的核心就在于延迟的奖励，即不仅考虑眼前的奖励，并且以衰减的方式考虑未来状态的奖励。
在这里插入图片描述
注意以下几点：

Q Learning 中的 Q值表示什么？
这里可以理解成基于值的强化学习中的值，不要简单地理解成奖励，因为这不仅仅是奖励，应该是与奖励、初始Q表、alpha相关的。
在一个初始化全为0 的Q表中，第一个更新的Q值应该是获得奖励的上一个状态，因为这时候会有非零值出现即奖励。
Q现实与 Q估计怎么理解？
Q估计就是根据已有的Q表估计的Q值，而Q现实是考虑 --> 采取动作造成状态变化的奖励与新状态下的最大Q值的共同作用。
如何理解超参数gamma的作用？
越远的状态对当前状态采取的动作的影响越小，也就是当前的采取的动作主要考虑下一个状态Q值的影响。（注意当前状态采取的动作与下一个状态有关。）
可以表达成：

3. Sarsa算法

3.1 流程

在这里插入图片描述

3.2 核心

在这里插入图片描述

当 Sarsa 和 Q-Learning 处在 状态s 时，都选择可带来最大 回报r 的 动作a，这样可到达 状态s’。而在下一步，如果使用 Q-Learning，则会观察在 新状态s’ 上哪个动作会带来最大回报r（不会真正地执行该动作，仅用来更新Q表），在 新状态s’ 上做决定时，再基于更新后的 Q表选择动作。

而 Sarsa 是实践派，在 新状态s’ 这一步估算的动作也是接下来要执行的动作，所以 Q(s, a) 的现实值也会稍稍改动，去掉maxQ，取而代之的是在 新状态s’ 上实实在在选取的 动作a’ 对应的Q值，最后像 Q-Learning 一样求出现实和估计的差距并更新Q表里的Q(s, a)。

注意：Sarsa 与 Q-Learning 算法很相似，区别在于下一个状态选择何种动作。在 Q-Learning 算法中，下一状态选择的动作由更新之后的Q表决定；而在 Sarsa算法中，在下一状态行为更加具有确定性，直接选取下一状态Q值最大的动作。

好运来2333

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习概述

1. 强化学习分类2. Q Learning算法思想、流程、核心。Q Learning 中的 Q值表示什么？这里可以理解成基于值的强化学习中的值，不要简单地理解成奖励，因为这不仅仅是奖励，应该是与奖励、初始Q表、alpha相关的。在一个初始化全为0的Q表中，第一个更新的Q值应该是获得奖励的上一个状态，因为这时候会有非零值出现即奖励。Q现实与Q估计怎么理解。Q估计就是根据已有的Q表...
复制链接

扫一扫

专栏目录