竞争性自适应重加权算法_Advanced算法:自适应探索

对于explore-first和epsilon-greedy算法,他们都存在一个缺陷,那就是没有根据历史信息去调整探索时间。一般而言,根据观察到的reward去调整exploration时间会使算法的regret降低。本部分将介绍两种自适应exploration的算法。

算法1:消除算法

首先考虑K=2的特殊情况。对于这种情况一种很自然的想法就是当我们知道一个arm远远优于另一个arm时,我们将抛弃那个较差的arm,而去重复选择那个较好的arm。

那么定义一个arm远远优于另一个arm的标准是什么?这个就是我们接下来需要讨论的问题了。假定

是在T个时隙里选择arm a 的次数,其中
为T个时隙中选择arm a所获得的平均奖励。那么根据霍夫丁不等式,我们可以得到:

cf2a720242747d94450c67a49a6b4b73.png

其中,

ca33617083389c6c57adc0ad3f60758c.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值