【强化学习】强化学习导论

最新推荐文章于 2022-08-24 17:23:16 发布

布纸所云

最新推荐文章于 2022-08-24 17:23:16 发布

阅读量507

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/105670064

版权

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。

在这里插入图片描述

免模型学习（Model-Free）
不尝试去理解环境, 环境给了我们什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。
Q learning, Sarsa, Policy Gradients 等都属于Model-Free
有模型学习（Model-Based）
对环境有提前的认知，通过过往的经验, 先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。

在这里插入图片描述

基于概率
基于概率是强化学习中最直接的一种，直接输出下一步要采取的各种动作的概率，根据概率采取行动，所以每种动作都有可能被选中，只是可能性不同。
基于价值
基于价值的方法输出的则是所有动作的价值，根据最高价值来选着动作。相比基于概率的方法，基于价值的决策部分更为确定，直接选价值最高的，而基于概率的方法，即使某个动作的概率最高，但是还是不一定会选到他。
基于概率的方法有Policy Gradient，在基于价值这边有 Q learning, Sarsa 等。
Actor-Critic结合了基于概率和基于价值： actor 会基于概率做出动作，而 critic 会对做出的动作给出动作的价值，这样就在原有的 policy gradients 上加速了学习过程。

在这里插入图片描述