EXP3算法

参考 本文章

Exp3算法

Exp3算法是解决多臂老虎机(MAB)问题的常用算法,其核心思想是,维护某一个臂概率,接着每次随机选择某个臂,根据选择后观察到的收益情况更新臂的权重,如此迭代下去,该算法可以保证后悔值在一定可接受范围内。

伪代码如下:

定义
γ ∈ ( 0 , 1 ] ; γ\in(0,1]; γ(0,1]
t 为 轮 数 ; t为轮数; t
i = 1 , 2.... K ; i=1,2....K; i=1,2....K k 为 臂 数 k为臂数 k
w ( i ) = 1 ; w(i)=1; w(i)=1; 初始化

for t=1,2…
      for i=1:k
在这里插入图片描述
根据得出的概率P1 (t),P2(t),P3(t),…Pk(t).随机选择 i_t(i臂t时刻)
得到策略Pi(t)的回值 x_i_t ∈ \in [0,1].
                 for j=1,…K
                                    在这里插入图片描述
                                    在这里插入图片描述
                                    T为轮数
                      end for
          end for
end for

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值