强化学习の学习笔记（一）——多臂老虎机、ε-greedy策略、乐观初始值、增量式实现、梯度赌博机

本文链接：https://blog.csdn.net/MamiyaHasaki/article/details/121927048

文章目录

前言

因为毕设的关系，要学习点强化学习的内容。我采用的教材是Richard S. Sutton/Andrew G. Barto著，俞凯等译的《强化学习（第2版）》。

符号约定

一般来说，大写符号代表随机变量，小写符号代表随机变量的一次具体实现。

$A_t\xlongequal[]{\mathrm{def}}$ 在时刻 $t$ 采取的动作（ $A$ 意味着action）
$R_t\xlongequal[]{\mathrm{def}}$ 该动作对应的收益（ $R$ 意味着reward）
具体动作 $a$ 对应的估计价值为 $Q_t\left(a\right)$
具体动作 $a$ 对应的真实价值为 $q_*\left(a\right)$ ，该价值是给定动作 $a$ 收益的期望：

$q_*\left(a\right)\xlongequal[]{\cdot}\mathbb{E}\left[R_t|A_t=a\right]\tag{0.1}$

举个例子，你今天是否去买彩票记为 $A_{\mathrm{today}}$ ，记买彩票这个行为为 $d o$ ，不买彩票这个行为为 $n o t$ 。

假设这个时候有一个上帝视角的人，它知道你今天买彩票 $买$ 或者不买彩票 $不买$ 这个行为的真实期望收益为

$\begin{cases} q_*\left(买\right)&\xlongequal[]{\cdot}\mathbb{E}\left[R_{今天}|A_{今天}=买\right]\\ q_*\left(不买\right)&\xlongequal[]{\cdot}\mathbb{E}\left[R_{今天}|A_{今天}=不买\right] \end{cases} \tag{0.2}$

然而，虽然旁观者清，但你当局者迷，你只能对 $q_*\left(买\right)$ 、 $q_*\left(不买\right)$ 进行估计，得到估计期望收益为 $Q_{今天}\left(买\right)$ 、 $Q_{今天}\left(不买\right)$ 。然后你根据估计的期望收益进行行动。

多臂老虎机

我们假设有两个老虎机，并已知老虎机甲的收益分布是均值为 $500$ ，方差为 $100$ 的正态分布；另一个老虎机乙的收益分布是均值为 $550$ ，方差为 $200$ 的正态分布。那么，如果将均值作为价值，那么

$\begin{cases} q_*\left(甲\right)=500\\ q_*\left(乙\right)=550 \end{cases} \tag{1.1}$

显然， $q_*\left(甲\right)<q_*\left(乙\right)$ ，我们无脑选择后者就完事了。全书完——

$\vdots$

骗你的啦——

基于平均学习Q函数

这里的问题在于：现实中我们不知道真实的收益概率分布 $R_t$ ，天底下哪有这种好事啊。那么我们自然得不到 $q_*\left(a\right)$ 。因此，强化学习干的就是这样一件事情——通过数据去学习收益概率分布，用学到的结果得到估计值 $Q_t\left(a\right)$ 。

那么，怎么学习 $Q_t\left(a\right)$ 呢？最简单的办法就是多次测量取平均值咯。

$Q_t\left( a \right) \xlongequal[]{\cdot}\frac{t\text{时刻前通过执行动作}a\text{得到的收益和}}{t\text{时刻前执行动作}a\text{的次数}}\tag{1.2}$

或者这么写可能会看得更清楚些，其实就是把每次选择 $a$ 的收益加起来取平均。

$Q_t\left( a \right) \xlongequal[]{\cdot}\frac{\sum_{i<t\text{且}A_i=a}{R_i}}{\sum_{i<t\text{且}A_i=a}{1}}\tag{1.3}$

那么，最简单的选择策略就是：无脑选择价值更高的就行了。这也被称为贪心策略，这个名字很形象，就好像一个小孩，永远只看重眼前的利益，永远选择当下收益最高的办法。

ε-greedy策略

看起来事情是如此地美好，我们似乎已经完全解决了多臂老虎机的问题了。但是啊，人之所谓成熟，就是眼光更长远，不能只为眼前利益所动。按照之前的贪心策略，我们开始兴冲冲地开始跑代码，然后可能会遇到一个诡异的情况。

回顾下问题描述：
已知老虎机甲的收益分布是均值为 $500$ ，方差为 $100$ 的正态分布；另一个老虎机乙的收益分布是均值为 $550$ ，方差为 $200$ 的正态分布。

因为收益是随机的，假设乙第一次很倒霉，第一次的收益是 $350$ ，估计值 $Q_t\left(乙\right)=350$ 。

然后后面抽甲，甲稳定在 $400 - 600$ 浮动，于是估计值 $Q_t\left(甲\right)\geqslant400$ 。

这下就惨了，虽然乙均值很高，但是第一次倒霉，导致我们总有 $Q_t\left(甲\right)> Q_t\left(乙\right)$ ，所以总选择估计价值高的甲。然而实际上乙的期望收益更高，这样就埋没了人才，很不好。

那么怎么办呢？我们还是要偶尔给乙一点秀一下自己的机会。具体落实下来就是以 $\varepsilon$ 的概率不按常理出牌，假设此时 $Q_t\left(甲\right)> Q_t\left(乙\right)$ ，但在 $\varepsilon$ 概率下，诶，但这波我们就是不按常理出牌，就是玩，我们就是要选择估计价值更低的乙。

一般来说， $\varepsilon$ 都是一个比较小的数字，比如 $\varepsilon=0.1$ ，那么平均下来，十次就会有一次不按常理出牌。因为总体而言还是贪心策略，但是以 $\varepsilon$ 的概率不按常理出牌，所以被称为 $\varepsilon-\mathrm{greedy}$ 策略。

乐观初始值

对于多臂老虎机问题，我们遇到了埋没了人才乙的问题。除了 $\varepsilon-\mathrm{greedy}$ 策略，还有其他办法能解决吗？当然是有的。一个简单的方法就是乐观初始值，如果我们不知道初始值，我们就将“最乐观”的情形设置为初始值。比如将 $1000$ 设置为初始值，即使乙有一次很倒霉，遇到了 $350$ ，由于乐观初始值，乙总是有着出手的机会。

乐观初始值在平稳问题下比较有效，但对于非平稳问题，就不那么适合了。下面我们即将讨论非平稳问题。

增量式实现

前面还有一个问题，我们应当如何计算 $Q_t$ ？

为了简化问题，我们只关注一个动作 $a$ ，假设第 $i$ 次选择动作 $a$ ，收益是 $R_i$ ，那么按照直接平均的策略，那么——

$Q_n \xlongequal[]{\cdot}\frac{R_1+R_2+\cdots +R_{n-1}}{n-1}\tag{1.4}$

这样明显很傻，因为我们要储存 $n - 1$ 个过去的状态，既费时间也费空间。我们完全可以只关注 $Q_{n+1}$ 和 $Q_n$ 的差量——

$\begin{aligned} Q_{n+1}&=\frac{R_1+R_2+\cdots +R_{n-1}+R_n}{n}\\ &=\frac{n-1}{n}\frac{R_1+R_2+\cdots +R_{n-1}}{n-1}+\frac{R_n}{n}\\ &=\frac{n-1}{n}Q_n+\frac{R_n}{n}\\ &=Q_n+\frac{1}{n}\left( R_n-Q_n \right)\\ \end{aligned}\tag{1.5}$

也就是说，每来一个新状态 $R_n$ ，我们只需要把差量加权 $\frac{1}{n}\left( R_n-Q_n \right)$ 更新到原状态即可，通项公式即

$Q_{n+1}\leftarrow Q_n+\alpha\left[R_n-Q_n\right],\ \alpha=\frac{1}{n}\tag{1.6}$

或者更明确地

$\text{新估计值}\gets \text{旧估计值}+\text{步长}\times \left( \text{目标}-\text{旧估计值} \right) \tag{1.7}$

那么问题来了，步长 $\alpha$ 一定只能是 $\frac{1}{n}$ 吗？

如果步长为 $\frac{1}{n}$ ，意味着每次试验的权重相同。那么假设我们要预测股票这种实时性很强的东西（非平稳问题），希望更注重当前的状态，不那么重视过去的状态，就可以调大步长以加大最新内容的权重，比如最简单的就是把步长当作常数，此时的公式即

$\begin{aligned} Q_{n+1}&=Q_n+\alpha \left[ R_n-Q_n \right]\\ &=\alpha R_n+\left( 1-\alpha \right) Q_n\\ \end{aligned}\tag{1.8}$

我们发现了递推公式，递推 $n$ 次自然得到

$\begin{aligned} Q_{n+1}&=\alpha R_n+\left( 1-\alpha \right) Q_n\\ &=\alpha R_n+\alpha \left( 1-\alpha \right) R_{n-1}+\cdots +\alpha \left( 1-\alpha \right) ^{n-1}R_1+\left( 1-\alpha \right) ^nQ_1\\ &=\left( 1-\alpha \right) ^nQ_1+\alpha \sum_{i=1}^n{\left( 1-\alpha \right) ^{n-i}R_i}\\ \end{aligned}\tag{1.9}$

可以看到，这是一个加权平均，越新的数据权重越高。我们取一个最极端的情形 $\alpha=1$ ，这意味着 $Q_{n+1}=R_n$ ，这个网络变成了鱼的记忆(X)，永远只能记住最近的数据，以前的数据都会被遗忘。

梯度赌博机

基于平均的估计太low了，我们自然的想法就是——能不能基于神经网络的梯度更新的方法进行更新。

此时我们关心的不再是每个动作的绝对收益 $Q_t\left(a\right)$ ，而是他们的相对值 $H_t\left( a \right)$ 。假设有动作 $a_1,a_2,\cdots ,a_n$ ，因为是相对值，所以它们的和为 $0$ ，类似于零和博弈，即

$\sum_{i=1}^n{H_t\left( a_i \right)}=0\tag{2.1}$

我们借鉴softmax的思想，定义选择动作 $a_k$ 的概率为

$\pi _t\left( a_k \right) \xlongequal[]{\cdot}\frac{\exp \left[ H_t\left( a_k \right) \right]}{\sum_{i=1}^n{\exp \left[ H_t\left( a_i \right) \right]}}\tag{2.2}$

每次假设 $t$ 时刻动作 $a_k$ 后的收益为 $R_t$ ，此前的平均收益为 $\bar{R}_t$ ，则按照如下方式更新

$H_{t+1}\left( a_i \right) \gets \begin{cases} H_t\left( a_i \right) +\alpha \left( R_t-\bar{R}_t \right) \left[ 1-\pi _t\left( a_i \right) \right] ,& i=k\\ H_t\left( a_i \right) -\alpha \left( R_t-\bar{R}_t \right) \pi _t\left( a_i \right) ,& i\ne k\\ \end{cases}\tag{2.3}$

至于这里的系数是怎么来的，其实这里是类似于梯度上升推导而来的。考虑梯度上升公式

$H_{t+1}\left( a \right) \gets H_t\left( a \right) +\alpha \frac{\partial \mathbb{E} \left[ R_t \right]}{\partial H_t\left( a \right)}\tag{2.4}$

结合 $\mathbb{E} \left[ R_t \right] =\sum_x{\pi _t\left( x \right) q_*\left( x \right)}$ ，自然有——

$\begin{aligned} \frac{\partial \mathbb{E} \left[ R_t \right]}{\partial H_t\left( a \right)}&=\sum_x{\frac{\partial \pi _t\left( x \right) q_*\left( x \right)}{\partial H_t\left( a \right)}}\\ &=\sum_x{\left[ q_*\left( x \right) -B_t \right] \frac{\partial \pi _t\left( x \right)}{\partial H_t\left( a \right)}}\\ \end{aligned}\tag{2.5}$

这里为什么我们要引入一个 $B_t$ 呢？是因为我们希望结果的均值尽可能为 $0$ ，这样才公平。因为假设大家都是正收益的话，梯度永远是正的。我们希望平均梯度为 $0$ ，形成零和博弈，从而有

$\begin{aligned} \frac{\partial \mathbb{E} \left[ R_t \right]}{\partial H_t\left( a \right)}&=\sum_x{\pi _t\left( x \right) \left[ q_*\left( x \right) -B_t \right] \frac{\partial \pi _t\left( x \right)}{\partial H_t\left( a \right)}\frac{1}{\pi _t\left( x \right)}}\\ &=\mathbb{E} \left[ \left( R_t-\bar{R}_t \right) \frac{\partial \pi _t\left( a_k \right)}{\partial H_t\left( a \right)}\frac{1}{\pi _t\left( a_k \right)} \right]\\ \end{aligned}\tag{2.6}$

结合softmax的求导公式

$\frac{\partial \pi _t\left( a_k \right)}{\partial H_t\left( a \right)}=\begin{cases} \pi _t\left( a_k \right) \left[ 1-\pi _t\left( a_k \right) \right] ,& i=k\\ -\pi _t\left( a_k \right) \cdot \pi _t\left( a_k \right) ,& i\ne k\\ \end{cases}\tag{2.7}$