强化学习入门【An Introduction to Reinforcement Learning】——01

最新推荐文章于 2021-05-11 18:48:16 发布

lukas_wq

最新推荐文章于 2021-05-11 18:48:16 发布

阅读量1k

点赞数 1

文章标签：强化学习 reinforcement learning

本文链接：https://blog.csdn.net/ASickboy/article/details/105213331

版权

什么是强化学习

强化学习是机器学习的重要分支之一。强化学习就是学习“做什么才能使得数值化的收益信号最大化”，即学习如何把当前的状态映射为动作。智能体 (agent) 不会被告知应该采取什么动作，而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益，也被称为试错学习 (trial-and-error)。

与监督学习的不同之处

监督学习 (supervised learning) 是指：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。
在监督学习中，我们已知数据集中输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。也就是说，在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。
监督学习是从外部监督者提供的带标注训练集中进行学习。所谓的标注就是针对当前情境，系统应该做出的正确判断，也可以理解为一个标签。采用这种学习方式是为了让系统具备推断或泛化能力，能够响应不同的情境并做出正确的动作，哪怕这个情境并没有在训练集合中出现。
这是一种重要的学习方式，但是不适用于从交互中学习这类问题。在交互问题中，我们不可能获得所有情境下既正确又有代表性的动作示例。在一个未知领域，若想做到最好（收益最大），智能体必须要能够从自身的经验中学习。

与非监督学习的不同之处

非监督学习 (unsupervised learning) 是寻找未标注数据中隐含结构的过程。而强化学习的目的是最大化收益信号，而不是找出数据的隐含结构。

强化学习过程

process of reinforcement learning
在每个离散时刻t=0，1，2 …智能体和环境都发生了交互。在每个时刻 t，智能体观察到所在的环境状态的某种特征表达𝑆_𝑡，并在此基础上选择一个动作𝐴_𝑡。下一时刻，作为其动作的结果，智能体接收到一个数值化的收益𝑅_(𝑡+1)，并进入一个新的状态𝑆_(𝑡+1)。从而MDP和智能体共同给出了一个序列或轨迹，𝑆₀, 𝐴₀, 𝑅₁, 𝑆₁, 𝐴₁, 𝑅₂, 𝑆₂, 𝐴₂, 𝑅₃, …

举个栗子，在Pacman游戏中，智能体就是大嘴小怪物，环境就是整个迷宫中所有信息，动作就是上下左右移动，而奖励分为：智能体每走一步扣一分（让智能体学会最快实现目标），吃掉小球得十分，吃掉敌人得200分，被吃掉游戏结束。
Pacman

every step	-1
eat the ball	+10
eat the enemy	+200

分幕式(episodic)和持续性(continuous)任务

分幕式任务

有起始时刻和最终时刻，在这类任务中，智能体和环境的交互能被自然地分成一系列子序列（每个序列都存在最终时刻），称每个子序列为幕 (episode)，例如一盘游戏、一次走迷宫的旅程或任何这类重复性的交互过程。每幕都以一种特殊状态结束，称之为终结状态(terminal state)。随后会重新从某个标准的起始状态或起始状态中的某个状态样本开始。即使结束的方式不同，例如比赛的胜负，下一幕的开始状态与上一幕的结束方式完全无关。例如超级马里奥，起始状态就是游戏开始界面，终结状态就是被杀死或者到达最后关卡。
一般来说，我们寻求的是最大化期望回报，记为 $G_t$ ,它被定义为收益序列的一些特定函数。在最简单的情况下，回报是收益的总和：
$G_t \doteq R_{t+1}+R_{t+2}+R_{t+3}+ \cdots +R_T$
其中 $T$ 是最终时刻。
在这里插入图片描述

持续性任务

许多情况下，智能体-环境交互不一定能被自然地分为单独的episode，而是持续不断地发生。例如：长期运行的机器人应用、自动交易股票的机器人。智能体在人为停止之前一直运行。我们称这些为持续性任务。上面的回报公式用于描述持续性任务时会出现问题，因为最终时刻 $T=\infty$ ,并且我们试图最大化的回报也很容易趋于无穷。因此引入了折扣因子。根据这种方法，智能体尝试选择动作，使得它在未来收到的经过折扣系数加权后的收益总和是最大化的。
$G_t \doteq R_{t+1}+ \gamma R_{t+2}+ \gamma^2 R_{t+3}+ \cdots =\sum_{k=0}^\infty \gamma^k R_{t+k+1}$
其中， $\gamma$ 是折扣率， $0\le\gamma\le1$ 。
如果 $\gamma=0$ ，那么 $G_t \doteq R_{t+1}$ ，那么智能体是“目光短浅的”，即只关心最大化当前收益。在这种请款下，其目标是学习如何采取 $A_t$ 来最大化 $R_{t+1}$ 。
如果每个智能体的行为都碰巧只影响当前收益，而不是未来的回报，那么目光短浅的智能体可以通过单独最大化每个当前收益来最大化上式。但一般来说，最大化当前收益会减少未来的收益，以至于实际上的收益变少了。随着 $\gamma$ 接近 1，折后回报将更多地考虑未来的收益，也就是说智能体变得有远见了。

在这里插入图片描述
邻接时刻的回报可以用如下递归方式相互联系起来：
$G_t {\doteq} R_{t+1}+ \gamma R_{t+2}+ \gamma^2 R_{t+3}+ \gamma^3 R_{t+4}\cdots \\ \ = R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\gamma^2 R_{t+4}+\cdots) \\ =R_{t+1}+\gamma G_{t+1}$