RL学习日志1-------基本概念与类型


一、强化学习

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。
在这里插入图片描述

二、强化学习的常见类型

1.Q-learning

Q-learning的核心是基于一个状态、动作和价值对应关系的Q表,表示了在S状态下采取动作A所可以获得的奖励值大小,在确定了每一步的奖励值之后,不难得出问题的最优解法。其表如下所示
在这里插入图片描述

2.Sarsa与Sarsa(λ)

Sarsa的基本方法与Q-learning一致,建立状态、动作和价值对应的Q表,然后依据Q表进行决策,通过反馈不断改进自身的行为模式。唯一不同的是,迭代公式中Sarsa的估计值就是所采取的实际行动(将在公式推导中具体说明)。这样的改动使得Sarsa相对于Q-learning更为保守,趋利避害的特征更为明显。下表与Q-learning相同。
在这里插入图片描述

Sarsa(λ) 是Sarsa在回合更新的基础上给靠近奖励的动作赋予权重λ,权重从获得奖励的前一步到最初的一步逐渐递减,表示动作的不同重要程度。
(不难理解,在整个探索过程中,越靠近奖励的动作越具有价值)
(单步更新:没走一步更新一次Q表的值、回合更新:当最终获得奖励时更新Q表的值)

3.DQN

DQN 的全称是 Deep-Q-Network,就是将Q-learning方法中的Q表用神经网络的参数矩阵W和偏置B来替代,用于完成更为复杂的学习任务。如下图所示
在这里插入图片描述

4.Policy Gradients --策略梯度

Policy Gradients是一种基于概率的强化学习方法,与之前的Q-learning系列不同(Q-learning系列基于价值)。具体而言,Policy Gradients的下一个动作是在一系列不同概率的动作中随机选取一个,而Q-learning则是默认选择价值反馈最大的动作。Policy Gradients的独特方法使得它可以对一个连续的过程进行判断并做出动作,这是Q-learning很难做到的。对于反向传播,当动作获得的奖励是正向时,大幅度加大该动作的频率,而奖励是负向时,小幅增大该动作的频率。
在这里插入图片描述

5.Actor-Critic --演员评论家

Actor-Critic可以理解为Q-learningPolicy Gradients的结合版本。Critic类似于Q-learning对于模型做出的每一个动作进行打分,而ActorPolicy Gradients一样完成连续的动作。
在这里插入图片描述


本文参考资料-----【莫烦Python】强化学习 Reinforcement Learning 系列教程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@白圭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值