竞争性自适应重加权算法_Advanced算法：自适应探索

最新推荐文章于 2024-06-04 20:31:06 发布

weixin_39946657

最新推荐文章于 2024-06-04 20:31:06 发布

阅读量1.9k

点赞数

文章标签：竞争性自适应重加权算法

对于explore-first和epsilon-greedy算法，他们都存在一个缺陷，那就是没有根据历史信息去调整探索时间。一般而言，根据观察到的reward去调整exploration时间会使算法的regret降低。本部分将介绍两种自适应exploration的算法。

算法1：消除算法

首先考虑K=2的特殊情况。对于这种情况一种很自然的想法就是当我们知道一个arm远远优于另一个arm时，我们将抛弃那个较差的arm，而去重复选择那个较好的arm。

那么定义一个arm远远优于另一个arm的标准是什么？这个就是我们接下来需要讨论的问题了。假定

是在T个时隙里选择arm a 的次数，其中

为T个时隙中选择arm a所获得的平均奖励。那么根据霍夫丁不等式，我们可以得到：

其中，

最低0.47元/天解锁文章

weixin_39946657

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
竞争性自适应重加权算法_Advanced算法：自适应探索

对于explore-first和epsilon-greedy算法，他们都存在一个缺陷，那就是没有根据历史信息去调整探索时间。一般而言，根据观察到的reward去调整exploration时间会使算法的regret降低。本部分将介绍两种自适应exploration的算法。算法1：消除算法首先考虑K=2的特殊情况。对于这种情况一种很自然的想法就是当我们知道一个arm远远优于另一个arm时，我们将抛弃那...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。