(《机器学习》完整版系列)第16章 强化学习——16.2 K-摇劈赌博机的贪心算法(赌博当然贪心)

赌博当然贪心,所以有贪心算法。
常常面临“探索-利用”窘境,贪心算法即是在二者间进行概率分配。

K-摇劈赌博机, ϵ \epsilon ϵ-贪心算法

在争夺彊域类的战争游戏中,需要在两种行动中作决策:一是派侦察兵对未知区域进行“探索”;二是“利用”已知区域的目标,发起进攻。 常常面临“探索-利用”窘境。 K-摇劈赌博机的情形也是如此。

ϵ \epsilon ϵ-贪心算法即是在二者间进行概率分配:以 ϵ \epsilon ϵ概率进行“探索”,以 1 − ϵ 1-\epsilon 1ϵ概率进行“利用”。 这即为 ϵ \epsilon ϵ-贪心算法【西瓜书图16.4】,为便于理解,这里归纳几个要点:

(1)算法实际上是两层:一是第4句依概率 ϵ \epsilon ϵ决策本次是“探索”还是“利用”,这是 ϵ \epsilon ϵ-贪心算法的主体框架;二是在“探索”或“利用”之下,再选择具体的动作,“探索”中用随机性——第5句依等概率地选择一个摇臂,相当于随机地确定一个“探索方向”。 “利用”中用确定性——第7句“利用”最优进行选择。

(2) Q ( k ) Q(k) Q(k)是至当前为止,各摇臂的平均奖赏的统计。 各摇臂已试尝的次数是不一样的,故【西瓜书式(16.1)】中的 n n n是与 k k k相关的,即第12句。

(3)用数学技巧(该技巧经常用到,请注意掌握)将【西瓜书式(16.1)】变为一个递推式【西瓜书式(16.3)】,即为第11句。

(4)关于 ϵ \epsilon ϵ的取值:当概率分布较宽(不确定性较大)时,应取较大的 ϵ \epsilon ϵ,反之,应取较小的 ϵ \epsilon ϵ。 或者开始时,取较大的 ϵ \epsilon ϵ,随着时间的推移,逐步缩小,如, ϵ = 1 t \epsilon=\frac{1}{\sqrt{t}} ϵ=t 1

ϵ \epsilon ϵ-贪心算法中,将“探索”和“利用”严格地分开,并且在“利用”时,硬性地取使 Q ( k ) Q(k) Q(k)最大的 k k k。 现在将这个过程综合在一起:将 Q ( k ) Q(k) Q(k)视为 k k k臂的能量(始化所有的 Q ( k ) = 0 , k = 1 , 2 , ⋯   , K Q(k)=0,\quad k=1,2,\cdots,K Q(k)=0,k=1,2,,K),能量越大,选取它的概率越大,能量为0(还未取过的 k k k)也有机会取到,这就是【西瓜书5.5.6节(5.21)】所描述的Boltzman分布(也叫吉布斯分布)。 其效果是:将原来“利用”时的硬性 max ⁡ \max max变为软性 max ⁡ \max max(并含“探索”)。

进一步地,增加一个调节参数 τ > 0 \tau >0 τ>0(称为温度),这就是【西瓜书式(16.4)】,在“平均奖赏越大,选取的概率越高”的控制下,“探索”与“利用”的选择以及其中的随机性可以合一处理,由此修改 ϵ \epsilon ϵ-贪心算法中相应的 k k k选择部分,则得到Softmax算法,即【西瓜书图16.5】所示。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:16.1 任务与奖赏(从MDP出发)
下一篇:16.3 有模型的迭代式的详细推导(并更正一些错误思路)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值