1 强化学习（Reinforcement Learning, RL）初步介绍

最新推荐文章于 2025-10-14 19:38:29 发布

原创

最新推荐文章于 2025-10-14 19:38:29 发布 · 8.7w 阅读

143 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #强化学习

本文介绍了强化学习（RL）的基本概念，将其与有监督和无监督学习进行了对比。RL的特点包括闭环形式、无直接行动指导和延迟反馈。文章强调了在RL中的探索与开发之间的平衡对于学习有效策略的重要性，并探讨了RL中的关键概念：政策、奖励信号、值函数和环境模型。

【下一篇 2 从Multi-arm Bandits问题分析 - RL进阶】

当前的机器学习算法可以分为3种：有监督的学习（Supervised Learning）、无监督的学习（Unsupervised Learning）和强化学习（Reinforcement Learning），结构图如下所示：

其他许多机器学习算法中学习器都是学习怎样做，而RL是在尝试的过程中学习在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中，当前的行动不仅会影响当前的rewards，还会影响之后的状态和一系列的rewards。RL最重要的3个特性在于：（1）通常是一种闭环的形式；（2）不会直接指示选择哪种行动（actions）；（3）一系列的 actions 和奖励信号（reward signals）都会影响之后较长的时间。

RL与有监督学习、无监督学习的比较：
　　（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该 situation 的描述，而其 label 可以视为是应该执行的正确的 action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent 只能从自己的经历（experience）中进行学习，而 experience 中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
　　
　　（2）因为RL利用的并不是采取正确行动的 experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化 reward signal。
　　
　　（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个 reward 信号；反馈是延迟的，不是立即生成的；时间在 RL 中具有重要的意义；agent 的行为会影响之后一系列的data。
　　
RL采用的是边获得样例边学习的方式，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得 reward 之后再更新模型，不断迭代重复直到模型收敛。在这个过程中，非常重要的一点在于 “在已有当前模型的情况下，如果选择下一步的行动才对完善当前的模型最有利”，这就涉及到了RL中的两个非常重要的概念：探索（exploration） 和 开发（exploitation）：

exploration 是指选择之前未执行过的 actions，从而探索更多的可能性；
exploitation 是指选择已执行过的 actions，从而对已知的 actions 的模型进行完善。

RL非常像是 “trial-and-error learning”，在尝试和试验中发现好的 policy。就比如下图中的曲线代表函数 $f (x)$ ，它是一个未知的 $[a, b]$ 的连续函数，现在让你选择一个 $x$ 使得 $f (x)$ 取的最大值，规则是你可以通过自己给定 $x$ 来查看其所对应的 $f (x)$ ，假如通过在 $[a, 0]$ 之间的几次尝试你发现在接近 $x_1$ 的时候的值较大，于是你想通过在 $x_1$

最低0.47元/天解锁文章