强化学习的分类

  • on-policy: 必须本人在场, 并且一定是本人边玩边学习,例如Sarsa,Sarsa(lambda),TRPO。
  • off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则,例如Q-learning,DQN,Deterministic policy gradient。
    on-policy和off-policy本质区别在于:更新Q值的时候是使用既定策略还是使用新的策略。

  • Model-free:不尝试去理解环境, 环境给什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。例如Q-learning,Sarsa,Policy Gradients。

  • Model-based:先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境,还有想象力。

  • Policy based:目标是找到最优策略,通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。例如Policy Gradients,Actor-Critic

  • Value based:目标是找到最优奖励总和,输出的是所有动作的价值, 根据最高价值来选动作,这类方法不能选取连续的动作。例如Q-learning,Sarsa,Actor-Critic

  • Monte-carlo update:游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。例如policy gradients,MC

  • Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning,Sarsa,升级版的PG.

  • exploration (探索)会尝试很多不同的事情,看它们是否比以前尝试过的更好。

  • exploitation (利用)会尝试过去经验中最有效的行为。

参考:https://zhuanlan.zhihu.com/p/24806654

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值