莫烦强化学习视频笔记：第一节 1.2 强化学习方法汇总_无模型和基于价值不同分类-CSDN博客

1. 无模型的强化学习方法（Model-Free）和基于模型的强化学习方法（Model-Based）区分

首先是通过是否需要理解环境（环境给我们什么就是什么），能够分为无模型的强化学习方法和基于模型的强化学习方法。
假设这里有一个机器人和一个星球X。
无模型的强化学习方法（Model-Free）： 这里的模型就表示环境。理解了环境也就表示学会了一种模型来代表环境。不需要理解环境，机器人对星球X一无所知，机器人也不知道星球X对于他们的行为对做出怎样的反馈。举个例子，机器人决定扔了一颗原子弹要真实的世界（星球X），结果把自己也炸死了。
基于模型的强化学习方法（Model-Based）： 机器人通过过往的经验先理解真实的世界是如何的，建立一个模型模拟真实世界的反馈（这里如何获得的模型暂不讨论，只是有个大概的概念）。机器人既可以在真实世界玩耍，也可以在虚拟环境玩耍，然后原子弹无需扔到真实世界，在模型世界中肆意妄为也不会炸死自己。

两种分类如下：

不理解环境（Model-Free）： 可用的方法有Q学习（Q-Learning）、Sarsa学习和策略梯度（Policy Gradients），这些方法都是从环境中得到反馈来学习。在真实世界中，机器人按部就班地等待现实世界给予的反馈，然后再采取下一步行动。
理解环境（Model-Based）： 相比于无模型的方法多了建模的工序，模型即“虚拟环境”，方法同上。另外，无模型方法只能按部就班的与环境交互获得反馈，但是基于模型的方法多了“想象力”，可以在模拟环境中获得所有可能的结果，根据最好的结果来选择策略。该方法能通过想象预判接下来可能发生的所有情况，然后根据这些想象中的情况选择最好的那种，并根据这种情况采取下一步策略。这也是为什么Alpha-Go能取胜的原因。

2. 基于概率的方法和基于价值的方法

另外一种分类方法是基于概率的方法和基于价值的方法：

基于概率的方法： 是强化学习中最直接的方式。通过感受环境（交互）或者说通过感官分析所处的环境，输出的是各个动作的概率，比如游戏中的“上下左右”为4个动作。然后根据概率选择行动，所有动作都有可能被选中，只是概率（可能性）不同。虽然某些动作的概率很高，但是也不一定被选中，小概率事件也有可能发生。方法有策略梯度（Policy Gradients）。
基于价值的方法： 通过感受环境（交互），输出的是各个动作的价值，通过价值的高低来选择动作，这样选择的动作是最直接的，百分百选中最高价值的动作。决策的过程更铁定、毫不留情。方法有Q学习（Q-Learning）、Sarsa学习。

⚠ 需要注意的是，基于价值的方法对连续的动作是无能为力的，但基于概率的方法仍然可以通过概率分布得到某个动作的概率。但上述两种都是可以对非连续的动作进行决策的。

还可以结合基于概率的和基于价值的方法创造出更好的方法：Actor-Critic方法。Actor可以基于概率做出动作，而Critic会根据动作给出价值，由此加快了学习过程。

3. 单步更新和回合更新

第三种分类是单步更新（Temporal-Difference update）和回合更新（Monte-Carlo update），这里想象我们在玩一个游戏：

单步更新： 游戏开始后，每一步都进行一次准则更新，边进行游戏边学习。方法有Q-learning（Q学习）, Sarsa（Sarsa学习）, 升级版的 policy gradients（策略梯度）。
回合更新： 游戏开始后，直到结束，才总结所有动作节点，进行准则更新。方法有 Monte-carlo learning（蒙特卡洛学习） 和基础版的 policy gradients。

单步更新相比于回合更新效率更高，大部分都是单步更新，比如有的强化学习问题不属于回合问题。

4.离线学习和在线学习

最后是离线学习和在线学习：
这里我认为视频中的说法可能不准确，离线、在线学习和On\Off-Policy之间没有必然联系，是两个不同的概念。在David Silver的视频(B站讲解视频，含资料下载)中可以有更加深刻的了解：

同策略（On-Policy）： 采样策略与更新策略相同（后面才会提到“策略”，这里是选择动作的概率），如Sarsa学习中（s-a-R-s’-a’），智能体与环境交互采样与用来更新Q表的（具体来说是“估计”）策略相同。
异策略（Off-Policy）： 采样策略与更新策略不同（后面才会提到“策略”，这里是选择动作的概率），如Q学习中，智能体与环境交互采样与用来更新Q表的策略不同，后者是纯贪婪。
在线学习：本人在场，并且一定是本人边玩边学习。直接与环境交互并同时利用其数据进行更新。方法有Sarsa和Sarsa( $\lambda$ )。
离线学习：可以选择自己玩，也可以选择看着别人玩。通过看着别人玩来学习别人的行为准则。离线学习同样是从过往经验中学习，但是这些过往经历没必要一定是自己的，任何人的过往经历都可以学习。我也不必边玩边学习，我可以储存白天玩耍时的记忆，等到晚上再通过离线学习学习白天的记忆。方法有Q-learning和DQN。如DQN，是从一些已有的经验中抽取，一组数据训练完成后才更新，而不是直接交互和更新。这是模仿了人脑的记忆单元——海马体。