【强化学习】强化学习分类

本文介绍了强化学习中的几种关键方法,包括Model-free与Model-based的区别、Policy-based与Value-based的不同之处,以及在线学习与离线学习的概念。此外还讨论了回合更新和单步更新的特点。
摘要由CSDN通过智能技术生成

https://github.com/tigerneil/deep-reinforcement-learning-family
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/
-------主要引用morvan老师的教学视频

【强化学习】强化学习分类

在学习强化学习的过程中我们经常会遇到一些陌生的名词分类,什么model-free,offpolicy之类的,学习的时候不明觉厉可能就一眼带过了,但是其实这些分类的名词其实十分有趣,掌握他们十分有助于我们加深对相关强化学习算法的了解。

1、Model-free 和 Model-based

举个栗子:我们刚刚学习强化学习的时候都学习过gridworld这个机器人走迷宫的例子吧,就是有一个迷宫机器人从起点出发通过强化学习的方式选择出到达终点的最优路径。

model-based方式就是我们给机器人地图全开,事先了解好整个游戏环境根据过往的经验选取最优策略,也就是说model-based他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略

model-free方法就是不依赖模型,这种情况下就是直接将我们的机器人丢到迷宫里面瞎溜达,然后机器人会根据现实环境的反馈采取下一步的动作。这种方法不对环境进行建模也能找到最优的策略。Model-free 的方法有很多, 像 Q learning, Sarsa, Policy Gradients 都是从环境中得到反馈然后从中学习。
这里写图片描述

2、Policy-based RL 和 Value-based RL

说道Policy与Value就不得不提到他们的两大代表算法,Policy-based有 Policy Grandient;Value-based有Q-Learning。根据这两种算法我们很清晰的就能看出他们之间的区别,Policy-based算法是通过对策略抽样训练出一个概率分布,并增强回报值高的动作被选中的概率。而Value-based是通过潜在奖励计算出动作回报期望来作为选取动作的依据。
Policy基于策略的算法在连续动作空间上比起Value-based更有优势
还有一种nb的算法Actor-Critic他结合了这两类方法的优势之处, actor 会基于策略的概率分布做出动作,而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程。
这里写图片描述

3、回合更新 和 单步更新

回合更新和单步更新, 假设强化学习就是在玩游戏, 游戏回合有开始和结束. 回合更新指的是游戏开始后,我们要等到打完这一局我们才对这局游戏的经历进行总结学习新的策略。 而单步更新则是在游戏进行中每一步都在更新,这样就可以一边游戏一边学习不用等到回合结束。
再来说说方法, Monte-carlo learning 和基础版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新。 比如有的强化学习问题并不属于回合问题。
这里写图片描述

4、在线学习 和 离线学习

On-Policy在线学习智能体本身必须与环境进行互动然后一边选取动作一边学习。
Off-Policy是指智能体可以亲自与环境进行交互进行学习,也可以通过别人的经验进行学习,也就是说经验是共享的,可以使自己的过往经验也可以是其他人的学习经验。

最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network
这里写图片描述

Can You Train a Dog to Sit? If so, You Can Master Reinforcement Learning in No time! Welcome to the world of reinforced learning. This is a world where self-driving cars can be seen on real roads, where programs can beat world champions, where robots are not only a part of futuristic movies. Sound too scientifically involved for your expertise? Don?t worry; reinforcement learning is much more straightforward than you think. You do not need a college degree or to be a world-class developer in order to build a reinforcement learning application. Some rudimentary Python programming skills and a basic knowledge of Machine Learning is all it takes for this book to turn you into an RL expert. By describing the concept of reinforcement learning in a simple, non-technical way, teaching you its elements, applications, and algorithms in the most comprehensive way possible while giving you a great jumping-off point with some amazing Python implementations, this book is a definite must-have for everyone who wants to master this popular branch of AI without drowning in the technical nonsense. Inside this Book You?ll Discover: The elements of reinforcement learning Reiniforcement Learning vs. other learning types Simulated evironments and Policies A guide to Markov Decision Processes Dynamic Programming An exploration of Monte Carlo Methods The secrets to Q Learning And much, much more! If this sounds like a good deal to you, read this book and become a Reinforcement Learning expert in a matter of days.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值