强化学习（笔记）2020.11.29

最新推荐文章于 2024-01-09 22:26:11 发布

雾瞑

最新推荐文章于 2024-01-09 22:26:11 发布

阅读量546

点赞数

文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/lch778899/article/details/110330997

版权

本文对比了强化学习和监督学习，指出强化学习不满足监督学习的独立同分布假设和即时反馈特性，强调了强化学习中的延迟奖励和探索与利用的挑战。同时，介绍了强化学习智能体的组成部分，包括策略函数、价值函数和模型，以及在试错学习中寻找最优行为的过程。

摘要由CSDN通过智能技术生成

一、概述

1、

强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。
强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。
在强化学习过程中，agent 跟 environment 一直在交互。Agent 在环境里面获取到状态，agent 会利用这个状态输出一个 action，一个决策。然后这个决策会放到环境之中去，环境会通过这个 agent 采取的决策，输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。

示意图由两部分组成：agent 和 environment。

2、将强化学习与监督学习对比

监督学习

举个图片分类的例子，监督学习( supervised learning)就是说我们有一大堆标注的数据，比如车、飞机、凳子这些标注的图片，这些图片都要满足 i.i.d 分布（毫无关系），就是它们之间是没有关联的一个分布。
然后我们训练一个分类器，比如说右边这个神经网络。为了分辨出这个图片是车辆还是飞机，训练过程中，我们把真实的 label 给了这个网络。当这个网络做出一个错误的预测，比如现在输入了汽车的图片，它预测出来是飞机。我们就会直接告诉它，你这个预测是错误的，正确的 label 应该是车。然后我们把这个错误写成一个损失函数(loss function)，通过 Backpropagation（反向传播）来训练这个网络。
所以监督学习中有两个假设：（1）输入的数据（标注的数据）都是没有关联的，尽可能没有关联。因为如果有关联的话，这个网络是不好学习的。（2）我们告诉这个 learner 正确的标签是什么，这样它可以通过正确的标签来修正自己的这个预测。

在这里插入图片描述

强化学习

强化学习中并不满足监督学习的两个假设。举一个 Atari Breakout 游戏的例子，这是一个打砖块的游戏，控制木板，然后把这个球反弹到上面来消除这些砖块。
游戏过程中能发现这个智能体并非是i.i.d（毫无关系的），上下帧之间的连续性很强。
另外一点，在玩游戏的过程中，你并没有立刻获得这个反馈。比如你现在把这个木板往右移，那么只会使得这个球往上或者往左上去一点，你并不会得到立刻的反馈。所以强化学习这么困难的原因是没有得到很好的反馈，然后你依然希望这个 agent 在这个环境里面学习。
强化学习的训练数据就是这样一个玩游戏的过程。你从第一步开始，采取一个决策，比如说你把这个往右移，接到这个球了。第二步你又做出决策，得到的 training data 是一个玩游戏的序列。
比如现在是在第三步，你把这个序列放进去，你希望这个网络可以输出一个决策，在当前的这个状态应该输出往右移或者往左移。这里有个问题，就是我们没有标签来说明你现在这个动作是正确还是错误，必须等到这个游戏结束可能，这个游戏可能十秒过后才结束。现在这个动作往左往右到底是不是对最后游戏的结束能赢有帮助，其实是不清楚的的。这里就面临一个延迟奖励(Delayed Reward)，所以就使得训练这个网络非常困难。

对比

强化学习的输入序列并不是像监督学习那样都是独立的
另外一点是 learner 并没有被告诉你每一步正确的行为应该是什么。Learner 需要自己去发现哪些行为可以使得它最后得到这个奖励，只能通过不停地尝试来发现最有利的action。
这里还有一点是 agent 获得自己能力的过程中，其实是通过不断地试错(trial-and-error exploration)。Exploration（探索）和 exploitation（利用）是强化学习里面非常核心的一个问题。Exploration 是说你会去尝试一些新的行为，这些新的行为有可能会使你得到更高的奖励，也有可能使你一无所有。Exploitation 说的是你就是就采取你已知的可以获得最大奖励的行为，你就重复执行这个 action 就可以了，因为你已经知道可以获得一定的奖励。因此，我们需要在 exploration 和 exploitation 之间取得一个权衡，这也是在监督学习里面没有的情况。
在强化学习过程中，没有非常强的 supervisor（监督者），只有一个奖励信号(reward signal)，就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。Agent 在这个强化学习里面学习的话就非常困难，因为你没有得到即时反馈。当你采取一个行为过后，如果是监督学习，你就立刻可以获得一个指引，就说你现在做出了一个错误的决定，那么正确的决定应该是谁。而在强化学习里面，环境可能会告诉你这个行为是错误的，但是它并没有告诉你正确的行为是什么。而且更困难的是，它可能是在一两分钟过后告诉你错误，它再告诉你之前的行为到底行不行。所以这也是强化学习和监督学习不同的地方。

3、强化学习的智能体

组成

首先 agent 有一个 policy function，agent 会用这个函数来选取下一步的动作。其实就是动作函数。强化学习一般采用**stochastic policy(随机性策略)**当你输入一个状态s的时候，输出是一个概率。这个概率就是你所有行为的一个概率，然后你可以进一步对这个概率分布进行采样，得到真实的你采取的行为。比如说这个概率可能是有 70% 的概率往左，30% 的概率往右，那么你通过采样就可以得到一个 action。
其次还有价值函数：Q 函数。Q 函数里面包含两个变量：状态和动作——Q(S,A).所以你未来可以获得多少的奖励，它的这个期望取决于你当前的状态和当前的行为。这个 Q 函数是强化学习算法里面要学习的一个函数。因为当我们得到这个 Q 函数后，进入某一种状态，它最优的行为就可以通过这个 Q 函数来得到。
第三部分是模型。模型决定了下一个状态会是什么样的，就是说下一步的状态取决于你当前的状态以及你当前采取的行为。它由两个部分组成，一个是 probability，它这个转移状态之间是怎么转移的。另外是这个奖励函数，当你在当前状态采取了某一个行为，可以得到多大的奖励。