强化学习：多臂赌博机--磨刀不误砍柴工

哈喽十八子

已于 2022-07-18 23:01:00 修改

阅读量357

点赞数

分类专栏：强化学习文章标签：强化学习人工智能机器学习

于 2020-11-17 20:58:00 首次发布

本文链接：https://blog.csdn.net/qq_36870202/article/details/109752174

版权

强化学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

文章目录

强化学习：多臂赌博机--磨刀不误砍柴工

强化学习：多臂赌博机–磨刀不误砍柴工

平时我们说，“磨刀不误砍柴工”，通常说的是做事之前精心准备，虽然耗费了一定的时间，但由于提高了后面做事情的效率，相比于直接低效率做事情，还是会有更多的收益。

强化学习中也有一个类似的问题，即探索和开发之间的平衡问题(Explore-Exploit)。

探索即试错的过程，就像磨刀一样，会浪费一些机会、时间或者精力，导致一定时间内的收益会很少或者没有，但为了后面的开发打下了很好的基础；

开发即收获的过程，经过了一定的探索并从中总结经验后，能够以相对较高的效率，获得较多的收益。

然而，探索和开发是矛盾的。磨刀的时间太久或者太短，都会导致砍柴变少。后面将以“多臂赌博机”的简单游戏，介绍强化学习中是怎样对待这个问题的。

多臂赌博机

多臂赌博机，源于老虎机（或者叫单臂老虎机），不同之处是它有多个摇臂，“k臂赌博机”即有k个摇臂。当拉下某一个摇臂时，机器将吐出奖金，每一个摇臂对应奖金的有着不同的均值/期望，如下图所示。

游戏规则是，假设有若干次机会，如N=10⁵次，每次机会可以拉下一个摇臂，赌博机吐出一定数量的奖金；问采取什么策略，能够获得最多的奖金？

上图中，摇臂1,2,3,4中，摇臂1对应奖金期望最高，但事先我们是不知道的。

很自然的一个思路是：

先尝试一定次数（如M次），统计每个摇臂奖金的均值和方差，就能知道哪个摇臂奖金期望最高，这个过程可视作探索的过程。这个例子中，探索后会发现，最优策略就是每次都拉摇臂1；
一番探索之后，发现摇臂1对应的奖金期望最高，也就找到了最优策略：在剩下的（N-M）次机会中，每次都拉摇臂1。这个过程可视作开发的过程。

然而，如何确定M，或确定M和(N-M)的比例是个问题，即如何平衡探索和开发。

动作-价值方法

上面的方法中，采取了先探索、在开发的思路。实际上，探索和开发是可以交替同步进行的。

动作-价值函数：
$Q_t(a) \overset{.}{=} \frac{t时刻之前执行动作a的总收益}{t时刻之前执行动作a的总次数}$
其中 $a$ 是动作空间 $\mathbf A$ 中的一个动作，即 $\in \mathbf A$ 。

游戏过程中，统计不同动作的动作-价值函数。根据大数定律，随着每一个动作执行次数增加，该动作的价值函数将收敛到该动作的收益期望值。

那么游戏过程中，如何确定每一次执行的动作? 或者说，在t时刻，已知所有动作 $a$ 的价值函数 $Q_t(a), a \in \mathbf A$ ，如何确定t时刻该执行的动作 $A_t$ ？

贪心策略

贪心策略：每次都选历史表现最好的：
$A_t \overset{.}{=} \argmax_a Q_t(a)$
贪心策略不会花费太多的机会去尝试历史表现相对较差的动作，导致这些动作可能没有机会被充分的探索。

例如，上面的4摇臂赌博机中，1号摇臂可能在前几次机会中均“表现不佳”，反而最差的3号摇臂“超长发挥”，如果决策者采取的是贪心策略，1号摇臂在后续可能不会再次被启用，导致不能获得最高的收益。

$\epsilon$ -贪心策略

大部分时间都表现的贪心，但偶尔（比如以一个很小的概率 $\epsilon$ ) 随机选取一个动作。

相比于贪心策略， $\epsilon$ -贪心策略的一个优点是，随着时间的无限延长，每个动作都会被无限次采样，即充分试探，从而可以保证 $Q_t(a)$ 收敛到动作a的期望值。

动作选择函数：
$A_t \overset{.}{=} \begin{cases} \argmax_a Q_t(a) & P = 1 - \epsilon \\ 任选一个动作 & P = \frac{\epsilon}{|A|} \end{cases}$

其中， $∣ A ∣$ 表示动作空间大小；“任选一个动作”也有可能选到 $A_t =\argmax_a Q_t(a)$ 。即历史表现最优的动作被选到的概率：
$P\{A_t =\argmax_a Q_t(a)\} = 1 - \epsilon + \frac{\epsilon}{|A|}$
其他的动作被选到的概率：
$P\{others\} = \frac{\epsilon}{|A|}$

乐观初始值

上面介绍了贪心策略和 $\epsilon$ -贪心策略，依靠动作价值函数，以相对贪心的策略进行动作选择。

对于动作价值函数 $Q_t(a)$ ，在没有历史数据参考的情况下，即t=0时，设置一个相对乐观的初始值 $Q_{t=0}(a)$ ，鼓励决策器尽量多得对所有动作进行探索。这是一个比较实用的小技巧。

例如，上面4摇臂赌博机，假设所有摇臂奖金期望值均小于10，不妨设置一个很乐观的初始值 $Q_{t=0}(a)=100$ 。随着后面的不断尝试，被探索次数越多的摇臂的价值函数下降得越快，被探索次数少的摇臂价值函数保持相对较高的水平，从而在贪心思想的驱动下，被探索次数少的摇臂后期会以较大概率 $P$ 被探索。对于贪心算法 $P = 1$ ；对于 $\epsilon$ 贪心算法， $\epsilon + \frac{\epsilon}{|A|}$ 。

相反，如果初始值设置的相对较低，被探索次数越多的摇臂的价值函数上升得越快，被探索次数少的摇臂价值函数依然维持在相对较低的水平，那么被探索次数少的摇臂后期会以较小概率( $P=\frac{\epsilon}{|A|}$ )被探索，甚至没有机会被探索。

基于置信度上界的动作选择

$A_t \overset{.}{=} \argmax_a \bigg\lbrack Q_t(a) + \sqrt{\frac{\text{ln} t}{N_t(a)}} \bigg\rbrack$

梯度赌博机算法

哈喽十八子

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习：多臂赌博机--磨刀不误砍柴工

文章目录强化学习：多臂赌博机--磨刀不误砍柴工多臂赌博机の游戏规则强化学习：多臂赌博机–磨刀不误砍柴工平时我们说，“磨刀不误砍柴工”，通常说的是做事之前精心准备，虽然耗费了一定的时间，但由于提高了后面做事情的效率，相比于直接低效率做事情，还是会有更多的收益。强化学习中也有一个类似的问题，即探索和开发之间的平衡问题(Explore-Exploit)。探索即试错的过程，就像磨刀一样，会浪费一些机会、时间或者精力，导致一定时间内的收益会很少或者没有，但为了后面的开发打下了很好的基础；开发即收获的
复制链接

扫一扫