读书笔记--＞强化学习--＞强化学习一些基本概念介绍

最新推荐文章于 2023-03-24 21:17:59 发布

村头陶员外

最新推荐文章于 2023-03-24 21:17:59 发布

阅读量536

点赞数

分类专栏：论文强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/Mr_tyting/article/details/118437909

版权

论文同时被 2 个专栏收录

31 篇文章 4 订阅

订阅专栏

强化学习

7 篇文章 0 订阅

订阅专栏

因为工作中涉及到强化学习知识，故开始利用闲暇时间学习，主要参考的书籍是 Richard S.Sutton 和 Andrew G.Barto 编写的 Reinforcement Learning （第二版）。

在这里插入图片描述

本章主要总结书籍的第一章：Chapter 1 Introduction

文章目录

强化学习是做什么

强化学习就是学习，如何将环境状态（situations states）映射到动作（action），并且期望执行该动作能获得奖励（reward）越大越好。强化学习不是用来告诉哪个action应该被执行，而是学习和发现哪个action会使得reward最大。

action不仅影响当前的reward，而且还会影响下一阶段的situation，以及后续的所有reward。因此试错搜索 和 延迟奖励 是强化学习最重要的两个特征。

强化学习与监督学习、无监督学习区别

监督学习是从预先提供好的，标注的样本中进行学习，在强化学习的应用场景中，每个样本可以理解为是由状态描述（也就是特征）和标签（是否是正确action）组成。这种监督学习的方式的目的是让系统具有泛化性，以便遇到未见过的情况时能正确地行动。但在需要与环境交互问题中，想要预先获得正确且期望奖励最大的样本通常是不切实际的。这时候需要不断的探索和试错，才能获取最大期望的奖励。

无监督学习 通常是寻找隐藏在未标注样本集合中的结构信息。

有监督学习和无监督学习似乎覆盖了所有机器学习的范式，尽管有观点认为强化学习属于无监督学习，但是实际上，强化学习是在寻找能使期望奖励最大化的情况，并不是寻找隐藏的结构信息。

通过上述分析可知，强化学习是有别与有监督学习、无监督学习的第三种机器学习范式。

强化学习的一些基本要素

无论哪一种强化学习算法，通常都会涉及到以下四个基本要素，a Policy、a Reward Signal、a value function、 a model of the environment。

a Policy：粗略而言就是环境状态（states）到动作（action）的映射关系，在某些情况下，所谓policy 可能是一个简单的函数或查找表，而在其他情况下，它可能是比较复杂的模型，涉及大量的计算，例如搜索过程。policy是强化学习的核心，他能决定模型所输出的动作。一般来说，policy可以为每个动作指定概率。
a reward signal：定义了强化学习的目标，一般在特定的阶段，环境都给Agent发送一个反馈信息/回报信息，这种反馈信息就是 reward signal（有正有负），Agent的长期目标就是获取最大化的total reward signal。reward signal 是policy 改变选择的主要依据；如果policy 选择的某个action之后是较低回报，则在未来，遇到类似状态（states），policy会选其他action。所以reward signal对强化学习是至关重要的，可以说reward定义了Agent的价值观。
a value function：reward 表示能立即反馈action的好坏，而价值函数（value function）判断的是长期上的好坏。粗略来说，value function 表示的是在未来可以累积的总的reward值。价值函数就是表明比较长远的reward，而不是一时的。从某种意义上说，reward是主要的，而作为奖励预测的价值（value）则是次要的。没有奖励就没有价值，估计价值的唯一目的就是获得更多的奖励。然而，相对于reward，我们更关心的是value。选择什么样的action 是基于value做出的，在学习过程中，Agent寻求带来最高价值（value）的行动，而不是最高回报（reward），因为从长远来看，这些行动为我们获得了最大的reward。不过现实情况中，确定价值比确定奖励要困难得多。奖励基本上由环境直接提供，而价值估计，需要根据Agent在其整个生命周期中进行的观察序列来估。
a model of the environment：是最后一个元素是环境模型。它允许对环境的行为做出推断。例如，给定一个状态和动作，模型可能会预测结果的下一个状态和下一个奖励。

强化学习的挑战

强化学习面临的挑战之一是如何权衡探索与开发。为了获得更多的奖励，强化学习更喜欢执行那些它在过去尝试过的并且产生奖励的有效行为（开发过的）。但要这样容易陷入局部最优的情况，为了发现更大奖励的行为，它必须尝试以前没有选择过的行为（探索）。尴尬的是，无论是探索还是开发，都不可能在不失败的情况下独自进行，必须经历各种试错尝试，并逐步学习到最优的行为模式。例如在一个随机的任务中，每一个动作都必须尝试很多次，以获得对其预期奖励的可靠估计。

强化学习在很大程度上依赖于作为policy和value function 输入的状态特征，这种状态特征可以理解为 Agent对当前环境状态的理解，正确全面的认知环境对Agent很好的学习至关重要。