QUANT[13]强化学习(Reinforcement Learning)学习笔记1

最新推荐文章于 2023-06-17 18:19:02 发布

三千の世界

最新推荐文章于 2023-06-17 18:19:02 发布

阅读量318

点赞数

分类专栏： QUANT ML 文章标签：强化学习

本文链接：https://blog.csdn.net/qq_38604355/article/details/102647068

版权

QUANT 同时被 2 个专栏收录

36 篇文章 12 订阅

订阅专栏

16 篇文章 2 订阅

订阅专栏

本节主要是解决运行环境问题，以及强化学习需要的基础性概念

0.1 先来看看强化学习都在干什么

简单来说，让智能体不断地在定义的环境中做出行为，并且通过反馈的信号来学习产生正确行为的过程

1.1 强化学习与监督学习，非监督学习之间的关系

1.4.2..3《Algorithm for reinforcement learning》, Morgan&Claypool

1.4.2.4《Reinforcement learning and dynamic programming using function approximators》

资源打包dupan下载地址：

0.1 先来看看强化学习都在干什么

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。

简单来说，让智能体不断地在定义的环境中做出行为，并且通过反馈的信号来学习产生正确行为的过程

1.1 强化学习与监督学习，非监督学习之间的关系

强化学习是机器学习的一种方法，同样类似于深度学习，他们之间的关系可以用一幅图简单明了的描述：

RL与有监督学习、无监督学习的比较：
　　（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该situation的描述，而其label可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
　　（2）因为RL利用的并不是采取正确行动的experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化reward signal。
　　（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的；时间在RL中具有重要的意义；agent的行为会影响之后一系列的data。

1.2 强化学习的学习过程

强化学习它有自己的一套学习方法，下图是强化学习的示意图（非常简单）：

从图上我们可以看到强化学习它由两部分组成：智能体和环境。我们可以这样理解：

俗话解释一下：比如，我们从沙发旁走到门口，当我们起身之后，首先大脑获取路的位置信息，然后我们确定从当前位置向前走一步，不幸运的是我们撞墙了，这明显是个负反馈，因此环境会给我们一个负奖励，告诉我们这是一个比较差的走路方式，因此我们尝试换个方向走（走哪个方向比较好呢，后文会会讲到随机策略、确定性策略等策略决策《强化学习系列（3）：强化学习策略讲解》），就这样不断的和环境交互尝试，最终找到一套策略，确保我们能够从沙发旁边走到门口。在这个过程中会得到一个最大的累计期望奖励。