赌博当然贪心,所以有贪心算法。
常常面临“探索-利用”窘境,贪心算法即是在二者间进行概率分配。
K-摇劈赌博机, ϵ \epsilon ϵ-贪心算法
在争夺彊域类的战争游戏中,需要在两种行动中作决策:一是派侦察兵对未知区域进行“探索”;二是“利用”已知区域的目标,发起进攻。 常常面临“探索-利用”窘境。 K-摇劈赌博机的情形也是如此。
ϵ \epsilon ϵ-贪心算法即是在二者间进行概率分配:以 ϵ \epsilon ϵ概率进行“探索”,以 1 − ϵ 1-\epsilon 1−ϵ概率进行“利用”。 这即为 ϵ \epsilon ϵ-贪心算法【西瓜书图16.4】,为便于理解,这里归纳几个要点:
(1)算法实际上是两层:一是第4句依概率 ϵ \epsilon ϵ决策本次是“探索”还是“利用”,这是 ϵ \epsilon ϵ-贪心算法的主体框架;二是在“探索”或“利用”之下,再选择具体的动作,“探索”中用随机性——第5句依等概率地选择一个摇臂,相当于随机地确定一个“探索方向”。 “利用”中用确定性——第7句“利用”最优进行选择。
(2) Q ( k ) Q(k) Q(k)是至当前为止,各摇臂的平均奖赏的统计。 各摇臂已试尝的次数是不一样的,故【西瓜书式(16.1)】中的 n n n是与 k k k相关的,即第12句。
(3)用数学技巧(该技巧经常用到,请注意掌握)将【西瓜书式(16.1)】变为一个递推式【西瓜书式(16.3)】,即为第11句。
(4)关于 ϵ \epsilon ϵ的取值:当概率分布较宽(不确定性较大)时,应取较大的 ϵ \epsilon ϵ,反之,应取较小的 ϵ \epsilon ϵ。 或者开始时,取较大的 ϵ \epsilon ϵ,随着时间的推移,逐步缩小,如, ϵ = 1 t \epsilon=\frac{1}{\sqrt{t}} ϵ=t1。
在 ϵ \epsilon ϵ-贪心算法中,将“探索”和“利用”严格地分开,并且在“利用”时,硬性地取使 Q ( k ) Q(k) Q(k)最大的 k k k。 现在将这个过程综合在一起:将 Q ( k ) Q(k) Q(k)视为 k k k臂的能量(始化所有的 Q ( k ) = 0 , k = 1 , 2 , ⋯ , K Q(k)=0,\quad k=1,2,\cdots,K Q(k)=0,k=1,2,⋯,K),能量越大,选取它的概率越大,能量为0(还未取过的 k k k)也有机会取到,这就是【西瓜书5.5.6节(5.21)】所描述的Boltzman分布(也叫吉布斯分布)。 其效果是:将原来“利用”时的硬性 max \max max变为软性 max \max max(并含“探索”)。
进一步地,增加一个调节参数 τ > 0 \tau >0 τ>0(称为温度),这就是【西瓜书式(16.4)】,在“平均奖赏越大,选取的概率越高”的控制下,“探索”与“利用”的选择以及其中的随机性可以合一处理,由此修改 ϵ \epsilon ϵ-贪心算法中相应的 k k k选择部分,则得到Softmax算法,即【西瓜书图16.5】所示。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权