强化学习入门(一)

写在前面的话

个人学习笔记,仅供参考。

强化学习是什么?

强化学习
1、机器学习的子类
2、从错误中学习,更新行为准则

方法:打分(从分数中做决定,拿高分,避免低分,分数导向性)

分数导向性:类似于监督学习的标签,只是强化学习的数据没有标签。

通过价值选行为:Q Learning/Sarsa/Deep Q Network
直接选行为:Policy Gradients
想象环境从中学习:Model based RL

强化学习方法分类

是否理解环境

不理解环境(Model-Free RL):给什么就是什么,只能在真实的环境下进行。
理解环境(Model-Based RL):理解了环境,用模型来表示环境,既可以在模型中进行也可以在环境中进行。

:Model-Based RL可用Model-Free RL中的方法,如Q Learning/Sarsa/Policy Gradients。

概率与价值

基于概率:通过感官分析所处的环境,直接输出下一步采取各种行为的概率,根据概率采取行动。Policy Gradients
基于价值:与上面相似,不过是得到每种行动的价值,根据最高的价值采取相应的行动。Q Learning/Sarsa
区别
1、对于不连续的动作,基于概率的方法中所有动作都可能被选择执行。基于价值的方法中只有最高的价值对应的行动被执行。
2、对于连续的动作,基于价值的方法就不能用了。基于概率的方法会呈现一个分布。

:两者可以结合起来生成一个更加强大的方法:Actor-Critic。该方法先基于概率做出动作,对做出的动作进行打分给出价值,从而加速学习过程。

回合与单步

回合更新(Monte-Carlo update):从游戏开始到结束,总结游戏中所有的转折点再更新行为准则。基础版Policy Gradients/Monte-Carlo Learning
单步更新(Temporal-Difference update):在游戏进行中每一步都在更新,不用等结束可以边玩边学。Q Learning/Sarsa/升级版Policy Gradients

在线与离线

在线学习(on-Policy):必须本人在场,本人边玩边学。Sarsa/Sarsa(λ)
离线学习(off-Policy):可以是自己也可以是看别人玩。学习别人的行为准则,从他人的经验中学习。也可以不用边玩边学,白天存储玩的记忆晚上再学。Q Learning/Deep Q Network

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

粥粥粥少女的拧发条鸟

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值