参考 本文章
Exp3算法
Exp3算法是解决多臂老虎机(MAB)问题的常用算法,其核心思想是,维护某一个臂概率,接着每次随机选择某个臂,根据选择后观察到的收益情况更新臂的权重,如此迭代下去,该算法可以保证后悔值在一定可接受范围内。
伪代码如下:
定义:
γ
∈
(
0
,
1
]
;
γ\in(0,1];
γ∈(0,1];
t
为
轮
数
;
t为轮数;
t为轮数;
i
=
1
,
2....
K
;
i=1,2....K;
i=1,2....K;
k
为
臂
数
k为臂数
k为臂数
w
(
i
)
=
1
;
w(i)=1;
w(i)=1; 初始化
for t=1,2…
for i=1:k
根据得出的概率P1 (t),P2(t),P3(t),…Pk(t).随机选择 i_t(i臂t时刻)
得到策略Pi(t)的回值 x_i_t
∈
\in
∈[0,1].
for j=1,…K
T为轮数
end for
end for
end for