强化学习方法分类

最新推荐文章于 2024-04-05 17:14:40 发布

R戎

最新推荐文章于 2024-04-05 17:14:40 发布

阅读量969

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/R18830287035/article/details/89386694

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

一、理解环境or感知环境

Model-based：先理解真实世界是怎样的，并建立一个模型来模拟现实世界的反馈，通过想象来预判新下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。
Model-free：不依赖环境，不尝试去理解环境，Agent会根据现实环境的反馈采取下一步的动作，一步一步等待真实世界的反馈，再根据反馈采取下一步行动。
■例如Q-learning，Sarsa，Policy Gradients。

二、回合更新or单步更新

Monte-carlo update：游戏开始后，要等待游戏结束，然后再总结这一回合中的所有转折点，再更新行为准则。
■例如：policy gradients，MC
Temporal-difference update：在游戏进行中每一步都在更新，不用等待游戏的结束，这样就能边玩边学习了。
例如：Q-learning，Sarsa，升级版的PG.

三、基于价值or基于策略

Policy based：目标是找到最优策略，通过感官分析所处的环境，直接输出下一步要系取的各种动作的概率，然后根据概率采取行动。
例如：Policy Gradients
Value based：目标是找到最优奖励总和，输出的是所有动作的价值，根据最高价值来选动作，这类方法不能选取连续的动作。
■例如：Q-learning，Sarsa
还有一种名为Actor-Critic的算法：它结合了这两类方法的优势之处。

四、同策略or异策略

on-policy：必须Agent“本人”在场，并且一定是Agent边玩边学习，例如Sarsa，Sarsa（λ），TRPO。
off-policy：可以选择自己玩，也可以选择看着别人玩，通过看别人玩来学习别人的行为准则，例如Q-learning，DQN，Deterministic policy gradient。
on-policy和off-policy本质区别在于：更新Q值的时候是使用既定策略还是使用新的策略。

五、异策略的特点

可以从人类给出的示教样本或其他智能体给出的引导样本中学习；
可以重用由旧策略生成的经验；口可以在使用一个探索性策略的同时，学习一个确定性策略；
可以用一个策略进行采样，然后同时学习多个策略。

六、预测与控制

预测：给定某个策略，估计该策略将能得到多少奖励；
控制：找到一个最优的策略。
在RL算法中，通帝都是选代地进行先预测、再控制的过程，直到收敛

七、探索与利用

强化学习的学习过程

RL采用的是边获得样例边学习的方式
在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得reward之后再更新模型，
不新选代重复直到模型收敛。
在这个过程中，非帝重要的一点在于“在已有当前模型的情况下，如果选择下一步的行动才对完善当前的模型最有利”。

在有限次数下，到底是坚持在你认为中奖概率高的拉杆上投入更多的次数（Exploit）呢？
还是去试试别的拉杆（Explore）呢？

如何分配Explore和Exploit的次数的问题，就是著名的探索-利用困境（Explore-Exploit dilemma（EE
dilemma））。
exploration是指选择之前未执行过的actions，从而探索更多的可能性；exploitation是指选择已执行过的actions，从而对已知的actions的模型进行完善。

R戎

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习方法分类

一、理解环境or感知环境Model-based：先理解真实世界是怎样的，并建立一个模型来模拟现实世界的反馈，通过想象来预判新下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。Model-free：不依赖环境，不尝试去理解环境，Agent会根据现实环境的反馈采取下一步的动作，一步一步等待真实世界的反馈，再根据反馈采取下一步行动。■例如Q-learnin...
复制链接

扫一扫