深度强化学习算法比较

最新推荐文章于 2024-08-17 21:29:43 发布

北木.

最新推荐文章于 2024-08-17 21:29:43 发布

阅读量2k

点赞数

分类专栏：深度强化学习文章标签： DRL

本文链接：https://blog.csdn.net/weixin_43283397/article/details/98513573

版权

15 篇文章 2 订阅

订阅专栏

通过价值选行为	Q-learning 、Sarsa、 Deep Q network
直接选行为	policy Gradients
想象环境并从中学习	Model based RL

基于概率（Policy-Based RL）	policy Gradients
基于价值(Value-Based RL)	Q-learning 、Sarsa

基于概率：感官分析所处的环境，直接输出下一步采取各种行动的概率，然后根据概率采取行动，所以每一种动作都有可能被选中，只是可能性不同。

基于价值：输出的是所有动作的价值，我们根据最高价值选择动作。相比，基于价值更为铁定，毫不留情，就选的是价值最高的。而基于概率的即使某一动作概率最高，也不一定选中。对于连续动作，基于价值的方法无能为力。但能用一个概率分布，在连续动作中选择特定的动作。

结合这两种方法创造出Actor-critic
Actor基于概率做出动作 critic 会根据做出的动作给出动作的价值

在线学习（policy-on）指的是必须本人在场，离线学习（policy-off）是可以自己玩，也可以看着别人玩，来学习别人的行为准则。离线学习也是从过往经验中学习，但不局限于自己的经历。或者不需要边玩边学习，比如白天储存玩耍时的记忆，等到晚上通过离线学习来学习白天的记忆

离线学习	Q-learning 、 Deep Q network
在线学习	Sarsa 、 Sarsa（λ）

关注

专栏目录