强化学习与动态规划、博弈论、有监督学习、无监督学习和进化算法的差异

苏宇-算法交易

已于 2022-05-28 00:38:12 修改

阅读量2.4k

点赞数 2

分类专栏：强化学习

于 2020-08-16 20:14:34 首次发布

本文链接：https://blog.csdn.net/weixin_42690752/article/details/108037611

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习与动态规划、博弈论、有监督学习、无监督学习和进化算法的差异

强化学习的特点
强化学习 vs. 动态规划
强化学习 vs. 博弈论
强化学习 vs. 有监督学习
强化学习 vs. 无监督学习
强化学习 vs. 进化算法

强化学习的特点

在这里插入图片描述
强化学习中必备的三个要素是策略、收益信号和价值函数。

策略定义了智能体Agent在特定时间的行为方式（action）；
收益信号定义了强化学习问题中的目标，主要根据环境（Environment）向智能体Agent返回的收益（reward）对策略进行调整；
不同于表示即时收益的收益信号，价值函数表示未来可以累积的总收益的期望

强化学习中并非必须的要素是环境模型，即给定一个状态 $s_t$ 和动作 $r_t$ 就能够预测外部环境的下一个状态 $s_{t+1}$ 和下一个收益 $r_{t+1}$ 的模型。根据是否具有环境模型这一要素，可以将强化学习划分为无模型方法和有模型方法。

根据大佬的定义，强化学习就是学习“做什么（即如何把当前的情境映射成动作）才能使得数值化的收益信号最大化”。简单来说，强化学习通过与环境的交互/试错不断学习、更新模型从而达到长期目标。

综上，强化学习试图解决的是决策优化问题，即在特定状态（state）下，采取何种⾏动⽅案（action），才能使收益最⼤（reward）。

强化学习 vs. 动态规划

序贯决策问题中的经典优化算法如动态规划，也可以用于根据当前的状态决定下一步的行动，例如经典的最短路问题。动态规划中需要输入整个过程中完整、明确的信息（最短路问题中包括哪些路径以及每一条路径的成本），即需要很多先验知识。然而，强化学习中则不需要这些先验知识。

强化学习 vs. 博弈论

博弈论也是一个和强化学习类似的研究领域，例如，在一些棋类游戏中，我们可以通过博弈论计算出当前的最优动作。然而，经典的博弈论使用了“极大极小”的假设，即假设了对手会按照某种特定的方式来下棋，这一假设与现实情况并不相同，即使是高手也存在出错的可能性。强化学习中则没有使用类似的假设，更加符合真实的应用场景。

强化学习 vs. 有监督学习

有监督学习是当前机器学习领域中的常用模型，从外部监督者提供的带标注训练集中进行学习。每一个样本都是关于情境和标注的描述，标注中给出了针对当前情境，系统应该做出的正确动作，也可以看作是对当前情境进行分类的所属类别标签，从而能够让系统具备推断或者泛化能力，已经取得了成功。

有监督学习所要解决的是智能感知的问题，而强化学习所要解决的则是智能决策的问题。例如，在数字手写体识别中，有监督学习根据输入的大量带有标签的图片来识别数字，即学习”输⼊“长得像什么（特征），以及与该长相一一对应的是什么（标签）。然而，在atari游戏中，强化学习则不关心当前状态的图片是什么，而是只关心在当前状态下选择何种行动能够使得总收益最大。

强化学习和有监督学习的共同点是两者都需要⼤量的数据进⾏训练，但是两者所需要的数据类型不同。有监督学习需要的是多样化的标签数据，强化学习需要的是带有回报的交互数据。

虽然强化学习和有监督学习之间存在差异，但是两种范式也可以融合。当状态空间是连续值，即状态空间的取值范围非常大时，例如在西洋双陆棋中大约有 $10^{20}$ 种状态，我们便不可能再通过遍历这些状态，哪怕是遍历其中很小的一部分来对模型进行训练。考虑到神经网络能够为程序提供从经验中进行归纳的能力，因此在新的状态中，根据保存的过去遇到的相似状态的信息来选择动作，并由神经网络来做出最终决策便成为了解决这类问题的一种方案。在这一思路下，在强化学习中引入深度学习（有监督学习）便成为了一大研究的方向。

强化学习 vs. 无监督学习

既然强化学习不属于有监督学习，那么是否属于无监督学习呢？

无监督学习是一类典型的寻找未标注数据中隐含结构的过程，在这一过程中不依赖于每个样本对应的标注。例如，在聚类问题中，根据样本所具有的特征，可以将样本分为K个类，而在这一过程中并不涉及样本所对应的标注。

尽管强化学习也不依赖于每个样本的标注，但是强化学习的目的是最大化收益信号，而不是找出数据的隐含结构，即两种学习范式的学习目标不同。

强化学习 vs. 进化算法

在解决智能决策问题的方法，还存在着许多进化算法，如遗传算法、模拟退火等。这些算法采取大量静态策略，每个策略在扩展过的较长时间内与环境的一个独立实例进行交互，选择获取了最多收益的策略及其变种来产生下一代策略，然后继续循环更新。

和强化学习相比，进化算法中没有显示地计算价值函数，即忽略了智能体Agent与环境之间的交互细节。因此，进化算法只考虑这个策略的最终结果，例如在下棋情境下，只要这句比赛获胜就认为比赛中所有动作都有功劳，而与每一步具体动作的关键程度无关，而强化学习则可以评估策略对单个状态的回报，即考虑了交互过程中的诸多细节，会更加高效。