强化学习方法分类

一、理解环境or感知环境

Model-based:先理解真实世界是怎样的,并建立一个模型来模拟现实世界的反馈,通过想象来预判新下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。
Model-free:不依赖环境,不尝试去理解环境,Agent会根据现实环境的反馈采取下一步的动作,一步一步等待真实世界的反馈,再根据反馈采取下一步行动
例如Q-learning,Sarsa,Policy Gradients。

二、回合更新or单步更新

Monte-carlo update:游戏开始后,要等待游戏结束,然后再总结这一回合中的所有转折点,再更新行为准则。
例如:policy gradients,MC
Temporal-difference update:在游戏进行中每一步都在更新,不用等待游戏的结束,这样就能边玩边学习了。
例如:Q-learning,Sarsa,升级版的PG.

三、基于价值or基于策略

Policy based:目标是找到最优策略,通过感官分析所处的环境,直接输出下一步要系取的各种动作的概率,然后根据概率采取行动。
例如:Policy Gradients
Value based:目标是找到最优奖励总和,输出的是所有动作的价值,根据最高价值来选动作,这类方法不能选取连续的动作。
例如:Q-learning,Sarsa
还有一种名为Actor-Critic的算法:它结合了这两类方法的优势之处。

四、同策略or异策略

on-policy:必须Agent“本人”在场,并且一定是Agent边玩边学习,例如Sarsa,Sarsa(λ),TRPO。
off-policy:可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。
on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略还是使用新的策略

五、 异策略的特点

  • 可以从人类给出的示教样本或其他智能体给出的引导样本中学习;
  • 可以重用由旧策略生成的经验;口可以在使用一个探索性策略的同时,学习一个确定性策略;
  • 可以用一个策略进行采样,然后同时学习多个策略。

六、预测与控制

  • 预测:给定某个策略,估计该策略将能得到多少奖励;
  • 控制:找到一个最优的策略。
  • 在RL算法中,通帝都是选代地进行先预测、再控制的过程,直到收敛

七、探索与利用

强化学习的学习过程

  • RL采用的是边获得样例边学习的方式
  • 在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,
  • 不新选代重复直到模型收敛。
  • 在这个过程中,非帝重要的一点在于“在已有当前模型的情况下,如果选择下一步的行动才对完善当前的模型最有利”。
    在这里插入图片描述

在有限次数下,到底是坚持在你认为中奖概率高的拉杆上投入更多的次数(Exploit)呢?
还是去试试别的拉杆(Explore)呢?

  • 如何分配Explore和Exploit的次数的问题,就是著名的探索-利用困境(Explore-Exploit dilemma(EE
    dilemma))。
  • exploration是指选择之前未执行过的actions,从而探索更多的可能性;exploitation是指选择已执行过的actions,从而对已知的actions的模型进行完善。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值