强化学习第一课-概括与基础（上）

最新推荐文章于 2022-12-21 14:37:24 发布

Blue Faith

最新推荐文章于 2022-12-21 14:37:24 发布

阅读量1.5k

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/ly17809212771/article/details/121656345

版权

课程安排如下：

什么是强化学习？

强化学习实际上是一种机器学习范式，适用于多阶段序贯决策以获得较好的长期回报的场景。在这个图中展示了强化学习的一些关键要素。Agent是需要去做决策的智能体，Environment是智能体所处的环境，环境会向智能体提供一定的可观测的信息，也就是智能体所处的State，并且处于特定State的智能体会得到一定的Reward，智能体根据State可以采取相应的Action，从而实现最大化长期收益的目的。

1.监督学习和强化学习进行对比：

图片分类的实验中，先有一大堆标定的数据，比如车、飞机等图片，然后训练一个分类器，网络在训练时已经把真实的Label给到网络了，如果预测错误，比如把车预测成飞机，就直接说预测是错误的，把错误的写成一个loss函数。所以在监督学习中，输入的数据都是没有关联的，如果有关联，网络就会不好学习。监督学习告诉了learner，正确的标签是什么，使用正确的标签来修正自己的预测。
但是在强化学习中，这两点都不满足，强化学习的训练数据就是玩游戏的一个过程，数据就是游戏中的这样一个过程序列，比如游戏走在第三步的时候，将这个learner放入到网络，希望网络在当前的状态下输出一个决策，但是我们并没有标签告诉我们这个决策动作是正确的还是错误的，得等到游戏结束才行。面临一个奖励延迟，训练网络就是比较困难的。

综上，监督学习和强化学习的不同点有：

强化学习的序列数据不像监督学习中的样本都是i.i.d数据，即满足独立同分布。
并没有告诉learner哪一个是正确的，哪一步是错误的，learner必须自己去发现。只能通过自己不断地去尝试哪些是最有利的行为。
强化学习在获得自己能力的过程中，不断地试错。
强化学习中是无监督的，它只有一个奖励信号，环境会在很久以后会告诉你之前采取的行为是不是有效的。强化学习中的学习是比较困难的，正确的行为是不被立刻告知的。

强化学习的特点：

通过不断的探索来获取对环境的理解。
agent在环境中获得延迟的奖励。
强化学习中的时间非常重要，因为数据都是有时间关联的（机器学习中，数据越有关联，训练就会非常的不稳定）。所以在强化学习中，希望数据之间也是有较少的关联性，即是i.i.d数据，也叫独立同分布数据。
agent的行为会影响他稍后得到的数据，agent的行为会改变环境。所以强化学习中的一个很重要的问题就是如何让agent的行为得到一个稳定的提升。

为什么关注强化学习，就是强化学习得到的结果能得到超人类的结果。
实际应用：玩游戏、下围棋/象棋、机械臂
在这里插入图片描述