AI203:（五）：渐进最优上置信界算法，贝叶斯学习和汤普森采样（Asymplotically Optimal UCB,Beyesian Learning and Thompson Sampling）

本文链接：https://blog.csdn.net/a_metaman/article/details/144701032

在上章笔记的UCB算法中，

$UCB_{i}=\hat{\mu}_{i}+\sqrt{\frac{4\log n}{T_{i}(t-1)}}$

有如下问题：

1）需要对时间步长 $n$ 的先验知识，换句话说普通的UCB算法并不是Anytime算法

2）在一些特殊情况下（特别是当 $k=2$ 时， $m$ 又选择了最优值），普通UCB算法的表现并没有ETC的好，在遗憾表达式的常数系数UCB是16，ETC是4

为了解决这两个问题，我们引出渐进最优上置信界算法

$Asymplitical \ Optimal\ UCB\ Algorithm$

$1.Input\ k$

$2.Choose \ each \ arm \ once$

$3.In \ round \ t=k+1,...$

$choose \ A_{t}=\arg\max_{i}(\hat{\mu_{i}(t)}+\sqrt{\frac{2\log(f(t))}{T_{i}(t-1)}})$ $where\ f(t)=1+t\log^{2}(t)$

由渐进最优UCB的步骤可以看出，这个算法的探索红利是 $\sqrt{\frac{2\log(f(t))}{T_{i}(t-1)}}$ ，不依赖于时间步长 $n$ 的值，所以渐进最优UCB是任意时间算法

在渐进最优UCB算法中，那些未被选择的臂的探索红利随着时间增加而增加，这个算法里有一个内置机制去增加一个长时间未被选中的臂

三种算法的对比
	ETC（m最优）	UCB	渐进最优UCB