基本概念篇（一），强化学习基本要素

最新推荐文章于 2024-07-12 10:54:08 发布

samurasun

最新推荐文章于 2024-07-12 10:54:08 发布

阅读量9.3k

点赞数 12

分类专栏：强化学习笔记文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/samurasun/article/details/107784260

版权

其实本来不想写这篇的，相信愿意往下看的童鞋，对强化学习本身应该有一定了解。但其实你看的多了就会发现，现有很多文章在细节方面还是有不少差异的。因此，这篇文章也是为了统一本博客的话语体系，为后面内容打基础。
首先请看下面这张图：
在这里插入图片描述
上图就是强化学习的最一般思路。其中Agent代表你实现的各种“牛叉”算法，Environment则代表Agent输出或作用的对象。其实这一思路，特别类似于我们人类或者自然界的动物等，通过与环境的交互，逐渐适应环境并学习到知识。当然，现有强化学习的算法从效率上来说，别说和人类相比，与动物相比低的也不是一星半点。这是因为现有的学习算法，大部分都是需要依靠海量的数据来投喂的。（当然，我的知识有限，如果已有更高效的学习方法，我会回来改正这段话的。）
下面，我们根据上图，正式引入强化学习的一些基本要素：

1. 环境状态 $s$ ：

即Environment所描述对象的情况。由于强化学习本身的设计，其状态可认为是离散的，或者简单来说，就是一步一步的。我们在这里给 $s$ 添加一个下标 $t$ ，表示为 $s_t$ ，表示环境每一步的状态。当然，在强化学习中， $s_t$ 具体的取值，取决于你的采样方式，更取决于你设计的算法本身的需求。

2. Agent的动作 $a$ ：

即Agent的输出，这个也是一步一步的，因此可表示为 $a_t$ 。当然，这个取值也完全取决于你的需求与设计。在强化学习中， $s$ 与 $a$ 是成对出现的，即 $s_t\rightarrow a_t\rightarrow s_{t+1}\rightarrow\cdots$ 。请大家务必记住这个序列，它是强化学习概念的基础，贯穿强化学习始终。

3. 环境奖励 $r$ ：

即Agent的动作带来的实时收益，这个收益本身也取决于环境的设计。一般情况下，这个收益每一步都有。但是，有时很难对每一步设计具体收益，所以有可能会在最后设计一个总收益，而其他步上都是0。收益的设计会极大的影响你的算法，后面我们会通过各种示例慢慢讨论。
以上三个是强化学习中最基本的要素。在具体的强化学习中，每一步都会产生一个组合： $\left(s_t,a_t,s_{t+1},r_{t+1}\right)$