（《机器学习》完整版系列）第16章强化学习——16.2 K-摇劈赌博机的贪心算法（赌博当然贪心）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129788027

赌博当然贪心，所以有贪心算法。
常常面临“探索-利用”窘境，贪心算法即是在二者间进行概率分配。

K-摇劈赌博机， $\epsilon$ -贪心算法

在争夺彊域类的战争游戏中，需要在两种行动中作决策：一是派侦察兵对未知区域进行“探索”；二是“利用”已知区域的目标，发起进攻。常常面临“探索-利用”窘境。 K-摇劈赌博机的情形也是如此。

$\epsilon$ -贪心算法即是在二者间进行概率分配：以 $\epsilon$ 概率进行“探索”，以 $1-\epsilon$ 概率进行“利用”。这即为 $\epsilon$ -贪心算法【西瓜书图16.4】，为便于理解，这里归纳几个要点：

（1）算法实际上是两层：一是第4句依概率 $\epsilon$ 决策本次是“探索”还是“利用”，这是 $\epsilon$ -贪心算法的主体框架；二是在“探索”或“利用”之下，再选择具体的动作，“探索”中用随机性——第5句依等概率地选择一个摇臂，相当于随机地确定一个“探索方向”。 “利用”中用确定性——第7句“利用”最优进行选择。

（2） $Q (k)$ 是至当前为止，各摇臂的平均奖赏的统计。各摇臂已试尝的次数是不一样的，故【西瓜书式(16.1)】中的 $n$ 是与 $k$ 相关的，即第12句。

（3）用数学技巧（该技巧经常用到，请注意掌握）将【西瓜书式(16.1)】变为一个递推式【西瓜书式(16.3)】，即为第11句。

（4）关于 $\epsilon$ 的取值：当概率分布较宽（不确定性较大）时，应取较大的 $\epsilon$ ，反之，应取较小的 $\epsilon$ 。或者开始时，取较大的 $\epsilon$ ，随着时间的推移，逐步缩小，如， $\epsilon=\frac{1}{\sqrt{t}}$ 。

在 $\epsilon$ -贪心算法中，将“探索”和“利用”严格地分开，并且在“利用”时，硬性地取使 $Q (k)$ 最大的 $k$ 。现在将这个过程综合在一起：将 $Q (k)$ 视为 $k$ 臂的能量（始化所有的 $Q(k)=0,\quad k=1,2,\cdots,K$ ），能量越大，选取它的概率越大，能量为0（还未取过的 $k$ ）也有机会取到，这就是【西瓜书5.5.6节(5.21)】所描述的Boltzman分布（也叫吉布斯分布）。其效果是：将原来“利用”时的硬性 $\max$ 变为软性 $\max$ （并含“探索”）。

进一步地，增加一个调节参数 $\tau >0$ （称为温度），这就是【西瓜书式(16.4)】，在“平均奖赏越大，选取的概率越高”的控制下，“探索”与“利用”的选择以及其中的随机性可以合一处理，由此修改 $\epsilon$ -贪心算法中相应的 $k$ 选择部分，则得到Softmax算法，即【西瓜书图16.5】所示。