强化学习(reinforcement learning)简介_强化学习英文资料-CSDN博客

本文链接：https://blog.csdn.net/daydayup_668819/article/details/90292946

本文介绍了强化学习的基本概念，它与有监督学习、无监督学习的区别。强化学习中，agent通过与环境互动，依据reward信号优化行为策略，寻找最大化奖励的policy。关键要素包括环境、奖励、动作和状态。相比于其他机器学习，RL没有教师信号，反馈延迟且序列化，其价值函数用于平衡即时和未来奖励。书籍推荐包括Sutton的《Reinforcement learning: an introduction》等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习可以分为三类，分别是 supervised learning，unsupervised learning 和reinforcement learning。
强化学习与监督学习，非监督学习之间的关系
强化学习是机器学习的一种方法，同样类似于深度学习，他们之间的关系可以用一幅图简单明了的描述：
在这里插入图片描述
RL与有监督学习、无监督学习的比较：
　（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该situation的描述，而其label可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
　（2）因为RL利用的并不是采取正确行动的experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化reward signal。
　（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的