RL学习日志1-------基本概念与类型

@白圭

已于 2022-10-16 12:52:02 修改

阅读量443

点赞数

分类专栏： RL学习日志文章标签：学习算法人工智能

于 2022-09-30 20:20:09 首次发布

本文链接：https://blog.csdn.net/taiyuezyh/article/details/127125532

版权

RL学习日志专栏收录该内容

2 篇文章 1 订阅

订阅专栏

一、强化学习

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如何去产生正确的动作。
在这里插入图片描述

二、强化学习的常见类型

1.Q-learning

Q-learning的核心是基于一个状态、动作和价值对应关系的Q表，表示了在S状态下采取动作A所可以获得的奖励值大小，在确定了每一步的奖励值之后，不难得出问题的最优解法。其表如下所示
在这里插入图片描述

2.Sarsa与Sarsa(λ)

Sarsa的基本方法与Q-learning一致，建立状态、动作和价值对应的Q表，然后依据Q表进行决策，通过反馈不断改进自身的行为模式。唯一不同的是，迭代公式中Sarsa的估计值就是所采取的实际行动(将在公式推导中具体说明)。这样的改动使得Sarsa相对于Q-learning更为保守，趋利避害的特征更为明显。下表与Q-learning相同。
在这里插入图片描述

Sarsa(λ) 是Sarsa在回合更新的基础上给靠近奖励的动作赋予权重λ，权重从获得奖励的前一步到最初的一步逐渐递减，表示动作的不同重要程度。
(不难理解，在整个探索过程中，越靠近奖励的动作越具有价值)
(单步更新:没走一步更新一次Q表的值、回合更新:当最终获得奖励时更新Q表的值)

3.DQN

DQN 的全称是 Deep-Q-Network，就是将Q-learning方法中的Q表用神经网络的参数矩阵W和偏置B来替代，用于完成更为复杂的学习任务。如下图所示
在这里插入图片描述

4.Policy Gradients --策略梯度

Policy Gradients是一种基于概率的强化学习方法，与之前的Q-learning系列不同(Q-learning系列基于价值)。具体而言，Policy Gradients的下一个动作是在一系列不同概率的动作中随机选取一个，而Q-learning则是默认选择价值反馈最大的动作。Policy Gradients的独特方法使得它可以对一个连续的过程进行判断并做出动作，这是Q-learning很难做到的。对于反向传播，当动作获得的奖励是正向时，大幅度加大该动作的频率，而奖励是负向时，小幅增大该动作的频率。
在这里插入图片描述

5.Actor-Critic --演员评论家

Actor-Critic可以理解为Q-learning和Policy Gradients的结合版本。Critic类似于Q-learning对于模型做出的每一个动作进行打分，而Actor像Policy Gradients一样完成连续的动作。
在这里插入图片描述

本文参考资料-----【莫烦Python】强化学习 Reinforcement Learning 系列教程

@白圭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
RL学习日志1-------基本概念与类型

强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如何去产生正确的动作。的核心是基于一个状态、动作和价值对应关系的Q表，表示了在S状态下采取动作A所可以获得的奖励值大小，在确定了每一步的奖励值之后，不难得出问题的最优解法。的全称是 Deep-Q-Network，就是将Q-learning方法中的Q表用神经网络的参数矩阵W和偏置B来替代，用于完成更为复杂的学习任务。一样完成连续的动作。
复制链接

扫一扫