AI203:(五):渐进最优上置信界算法,贝叶斯学习和汤普森采样(Asymplotically Optimal UCB,Beyesian Learning and Thompson Sampling)

一.UCB的缺点

在上章笔记的UCB算法中, 

                        ​​​​​​​                UCB_{i}=\hat{\mu}_{i}+\sqrt{\frac{4\log n}{T_{i}(t-1)}}

有如下问题:

1)需要对时间步长n的先验知识,换句话说普通的UCB算法并不是Anytime算法

2)在一些特殊情况下(特别是当k=2时,m又选择了最优值),普通UCB算法的表现并没有ETC的好,在遗憾表达式的常数系数UCB是16,ETC是4        

为了解决这两个问题,我们引出渐进最优上置信界算法

二.渐进最优上置信界算法

Asymplitical \ Optimal\ UCB\ Algorithm

1.Input\ k

2.Choose \ each \ arm \ once

3.In \ round \ t=k+1,...

        ​​​​​​​​​​​​     choose \ A_{t}=\arg\max_{i}(\hat{\mu_{i}(t)}+\sqrt{\frac{2\log(f(t))}{T_{i}(t-1)}})  where\ f(t)=1+t\log^{2}(t)

由渐进最优UCB的步骤可以看出,这个算法的探索红利是\sqrt{\frac{2\log(f(t))}{T_{i}(t-1)}},不依赖于时间步长n的值,所以渐进最优UCB是任意时间算法

在渐进最优UCB算法中,那些未被选择的臂的探索红利随着时间增加而增加,这个算法里有一个内置机制去增加一个长时间未被选中的臂

遗憾分析
三种算法的对比
ETC(m最优) UCB 渐进最优UCB
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值