强化学习的常用方法

最新推荐文章于 2024-08-10 16:16:57 发布

Ftwhale

最新推荐文章于 2024-08-10 16:16:57 发布

阅读量2.1k

点赞数

分类专栏：深度学习文章标签：深度学习强化学习算法

本文链接：https://blog.csdn.net/Ftwhale/article/details/106094839

版权

本文介绍了强化学习中的两类主要方法——Model-free和Model-based，讲解了它们的区别与应用场景。Model-free方法中，智能体依赖环境反馈进行决策，而Model-based方法则通过预测环境模型来做出决策。此外，还探讨了基于概率和基于价值的决策方式，以及回合更新和单步更新的学习策略，最后提到了Q-learning作为价值函数优化的重要技术。

摘要由CSDN通过智能技术生成

上一节我们讲述了马尔可夫过程，这一节我们要讲的是强化学习中常用的方法。

Model-free和Model-based

我们可以将所有强化学习的方法分为理不理解所处环境,如果我们不尝试去理解环境, 环境给了我们什么就是什么. 我们就把这种方法叫做 model-free, 这里的 model 就是用模型来表示环境, 那理解了环境也就是学会了用一个模型来代表环境, 所以这种就是 model-based 方法. 我们假设有一个机器人，在Model-free方法中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动；而在model-based方法中, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略, 这也就是围棋场上 AlphaGo 能够超越人类的原因. 接下来, 我们再来用另外一种分类方法将强化学习分为基于概率和基于价值.。

基于概率和基于价值

基于概率是强化学习中最直接的一种, 他能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法输出则是所有动作的价值, 我们会根据最高价值来选择动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 毫不留情, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他。我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一。

回合更新和单步更新

如果我们把强化学习类比于玩游戏，游戏有开始和结束，回合更新就是指游戏开始后一定是在结束时才可以更新我们的行为准备。单步更新则是不用等待游戏结束，而是可以在游戏进行中去更新。