强化学习的分类

最新推荐文章于 2024-06-16 22:42:04 发布

Hhhy云帆

最新推荐文章于 2024-06-16 22:42:04 发布

阅读量2k

点赞数 2

分类专栏：深度学习强化学习

本文链接：https://blog.csdn.net/KyrieHe/article/details/78689631

版权

深度学习同时被 2 个专栏收录

39 篇文章 0 订阅

订阅专栏

强化学习

4 篇文章 0 订阅

订阅专栏

on-policy: 必须本人在场, 并且一定是本人边玩边学习，例如Sarsa，Sarsa(lambda)，TRPO。
off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则，例如Q-learning，DQN，Deterministic policy gradient。
on-policy和off-policy本质区别在于：更新Q值的时候是使用既定策略还是使用新的策略。
Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。例如Q-learning，Sarsa，Policy Gradients。
Model-based：先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈，通过想象来预判断接下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境，还有想象力。
Policy based：目标是找到最优策略，通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。例如Policy Gradients，Actor-Critic
Value based：目标是找到最优奖励总和，输出的是所有动作的价值, 根据最高价值来选动作，这类方法不能选取连续的动作。例如Q-learning，Sarsa，Actor-Critic
Monte-carlo update：游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。例如policy gradients，MC
Temporal-difference update：在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。例如Q-learning，Sarsa，升级版的PG.
exploration (探索)会尝试很多不同的事情，看它们是否比以前尝试过的更好。
exploitation (利用)会尝试过去经验中最有效的行为。

参考：https://zhuanlan.zhihu.com/p/24806654

Hhhy云帆

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习的分类

on-policy: 必须本人在场, 并且一定是本人边玩边学习，例如Sarsa，Sarsa(lambda)，TRPO。off-policy: 可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则，例如Q-learning，DQN，Deterministic policy gradient。 on-policy和off-policy本质区别在于：更新Q值的时候是使用既定策略
复制链接

扫一扫

专栏目录