【莫烦强化学习】视频笔记（一）2. 强化学习方法汇总

本文链接：https://blog.csdn.net/cherreggy/article/details/107129071

【莫烦强化学习系列视频】笔记本

第2节强化学习方法汇总

本节的目的更多是对强化学习的方法及特征有初步的了解。我们可以通过将强化学习方法分类，来逐一理解。

首先是通过是否需要理解环境（环境给我们什么就是什么），能够分为无模型的强化学习方法和基于模型的强化学习方法。
假设这里有一个机器人和一个星球X。
无模型的强化学习方法（Model-Free）： 不需要理解环境，机器人对星球X一无所知，机器人扔了一颗原子弹，但是由于环境未知，把自己也炸死了。
基于模型的强化学习方法（Model-Based）： 机器人通过过往的经验先理解真实的世界是如何的，建立一个模型模拟真实世界的反馈（这里如何获得的模型暂不讨论，只是有个大概的概念），然后原子弹无需扔到真实世界，在模型世界中肆意妄为也不会炸死自己。

两种分类如下：

不理解环境（Model-Free）： 可用的方法有Q学习（Q-Learning）、Sarsa学习和策略梯度（Policy Gradients），这些方法都是从环境中得到反馈来学习。
理解环境（Model-Based）： 相比于无模型的方法多了建模的工序，模型即“虚拟环境”，方法同上。另外，无模型方法只能按部就班的与环境交互获得反馈，但是基于模型的方法多了“想象力”，可以在模拟环境中获得所有可能的结果，根据最好的结果来选择策略。

另外一种分类方法是基于概率的方法和基于价值的方法：
在这里插入图片描述

基于概率的方法： 通过感受环境（交互），输出的是各个动作的概率，比如游戏中的“上下左右”为4个动作。然后根据概率选择行动，虽然某些动作的概率很高，但是也不一定被选中，小概率事件也有可能发生。例如策略梯度（Policy Gradients）。
基于价值的方法： 通过感受环境（交互），输出的是各个动作的价值，通过价值的高低来选择动作，这样选择的动作是最直接的，百分百选中最高价值的动作。例如：Q学习（Q-Learning）、Sarsa学习。

⚠ 需要注意的是，基于价值的方法对连续的动作是无能为力的，但基于概率的方法仍然可以通过概率分布得到某个动作的概率。

这两种方法还可以经过改近产生一种方法：Actor-Critic方法，Actor可以基于概率做出动作，而Critic会根据动作给出价值，由此加快了学习过程。

第三种分类是单步更新和回合更新，这里想象我们在玩一个游戏：

单步更新： 游戏开始后，每一步都进行一次准则更新，边进行游戏边学习。例如Qlearning（Q学习）, Sarsa（Sarsa学习）, 升级版的 policy gradients（策略梯度）。
回合更新： 游戏开始后，直到结束，才总结所有动作节点，进行准则更新。例如 Monte-carlo learning（蒙特卡洛学习） 和基础版的 policy gradients。

单步更新相比于回合更新效率更高，大部分都是单步更新，比如有的强化学习问题不属于回合问题。

最后是离线学习和在线学习：
这里我认为视频中的说法可能不准确，离线、在线学习和On\Off-Policy之间没有必然联系，是两个不同的概念。在David Silver的视频(B站讲解视频，含资料下载)中可以有更加深刻的了解：
在这里插入图片描述
同策略（On-Policy）： 采样策略与更新策略相同（后面才会提到“策略”，这里是选择动作的概率），如Sarsa学习中（s-a-R-s’-a’），智能体与环境交互采样与用来更新Q表的（具体来说是“估计”）策略相同。
异策略（Off-Policy）： 采样策略与更新策略不同（后面才会提到“策略”，这里是选择动作的概率），如Q学习中，智能体与环境交互采样与用来更新Q表的策略不同，后者是纯贪婪。
在线学习： 直接与环境交互并同时利用其数据进行更新。
离线学习： 如DQN，是从一些已有的经验中抽取，一组数据训练完成后才更新，而不是直接交互和更新。这是模仿了人脑的记忆单元——海马体。