1.用于K-摇臂赌博机的UCB(Upper Confidence Bound)方法每次选择 Q(k)+UC(k) 最大的摇臂,其中 Q(k) 为摇臂k当前的平均奖赏, UC(k) 为置信区间。例如:
Q(k)+2lnnnk−−−−−√
其中,n为已执行所有摇臂的总次数, nk 为已执行摇臂k的次数。比较UCB方法与 ϵ -贪心法和Softmax方法的异同。
解答:
ϵ -贪心:
- 在时刻 t ,为每个行为估计平均奖赏
- 以 1−ϵ 的概率选择最大奖赏对应的行为
At=argmaxaQt(a)
- 以 ϵ 的概率等概率地从所有行为中选择一个
ϵ -贪心每次随机选择一个行为进行探索,没有对优质行为进行更多探索;另外如果一个行为已经执行很多次了,那么没有必要再对它进行探索了。
Softmax:
- 在时刻 t ,为每个行为估计平均奖赏
- 以下面的概率分布选择行为
P(a)=eQt(a)τ∑Ki=1eQt(i)τ
Softmax方法平均奖励比较高的行为有更高的概率被选中。
UCB:
- 在时刻 t ,为每个行为估计平均奖赏
- 选择 Qt(a)+UCt(a) 最大的那个行为
UCB中的 UCt(a) 是 Qt(a) 的置信区间。当一个行为执行次数比较少时,对应的 UC(a) 比较大,即置信区间比较大,意味着 Q