一.UCB的缺点
在上章笔记的UCB算法中,
有如下问题:
1)需要对时间步长的先验知识,换句话说普通的UCB算法并不是Anytime算法
2)在一些特殊情况下(特别是当时,
又选择了最优值),普通UCB算法的表现并没有ETC的好,在遗憾表达式的常数系数UCB是16,ETC是4
为了解决这两个问题,我们引出渐进最优上置信界算法
二.渐进最优上置信界算法
由渐进最优UCB的步骤可以看出,这个算法的探索红利是,不依赖于时间步长
的值,所以渐进最优UCB是任意时间算法
在渐进最优UCB算法中,那些未被选择的臂的探索红利随着时间增加而增加,这个算法里有一个内置机制去增加一个长时间未被选中的臂
遗憾分析
ETC(m最优) | UCB | 渐进最优UCB | |