第二章 多臂老虎机(二)

最佳初始值

  1. 有偏(bias)
    定义:依赖于初始值的方法称为对初始值有偏。
  2. 断言:样本平均方法遍历完所以动作之后,有偏会消失;常数步长因子方法不会。
    证明: ∵ N ( A ) = 1 ⇒ Q ( A ) = Q ( A ) + 1 N ( a ) ( R − Q ( A ) ) = R \because N(A)=1 \Rightarrow Q(A)=Q(A)+\frac{1}{N(a)}(R-Q(A))=R N(A)=1Q(A)=Q(A)+N(a)1(RQ(A))=R
  3. 最佳初始值(optimistic initial values):
    定义:能促进探索的初始值称为最佳初始值。
    例子:10-臂老虎机,令初始值 Q 1 ( a ) = + 5 Q_{1}(a)=+5 Q1(a)=+5。根据 ϵ \epsilon ϵ-贪心算法,所有的动作将会被遍历。如图1:
    在这里插入图片描述
    在这里插入图片描述
  4. 习题:
    Ex.2.6. Mysterious Spikes: 图1中,早期为什么会出现震荡和脉冲?评价最佳初始值在早期的表现。
    解:对于常数步长因子方法,在遍历一遍之后,动作值普遍下降,实际值大的动作当前值也大,此时贪心算法会选择正确动作。但随着正确动作被选择次数增多,当前值会降低,此时贪心算法将会选择其他的动作,因此对于最佳动作选择比的形状图,形成了脉冲和震荡。
    Ex.2.7 Unbiased Constant-Step-Size Trick: 当我们既需要初始值无偏,又面对不稳定环境的时候,我们该怎么办呢?下面方法就是在常步长方法下的改良:
    β n ≐ α / o ˉ n \beta_{n}\doteq \alpha/\bar{o}_{n} βnα/oˉn
    其中 α \alpha α是常数步长因子,
    o ˉ n ≐ o ˉ n − 1 + α ( 1 − o ˉ n − 1 ) ,   w i t h   o ˉ 0 = 0 \bar{o}_{n}\doteq\bar{o}_{n-1}+\alpha(1-\bar{o}_{n-1}),\ with\ \bar{o}_{0}=0 oˉnoˉn1+α(1oˉn1), with oˉ0=0
    证明: Q n Q_{n} Qn初始值无偏。
    解:
    给定初始值 Q 1 ( a ) = c Q_{1}(a)=c Q1(a)=c,要证明有限步之后, Q n ( a ) Q_{n}(a) Qn(a) Q 1 ( a ) Q_{1}(a) Q1(a)无关,对于任意a。
    任意给定一个动作,当第二次选中这个动作时, n = N ( a ) = 2 n=N(a)=2 n=N(a)=2,且
    o ˉ 1 = o ˉ 0 + α ( 1 − o ˉ 0 ) = α β 1 = α / o ˉ 1 = 1 ∴ Q 2 ( a ) = Q 1 ( a ) + β 1 ( R − Q 1 ( a ) ) = R \bar{o}_{1}=\bar{o}_{0}+\alpha(1-\bar{o}_{0})=\alpha\\ \beta_{1}= \alpha/\bar{o}_{1}=1\\ \therefore Q_{2}(a)=Q_{1}(a)+\beta_{1}\left(R-Q_{1}(a) \right)=R oˉ1=oˉ0+α(1oˉ0)=αβ1=α/oˉ1=1Q2(a)=Q1(a)+β1(RQ1(a))=R
    遍历所有动作后,消除有偏。

备注: 怎么看待这个改进?
解: 公式的不动点为1,即
o ˉ n → 1 \bar{o}_{n}\rightarrow 1 oˉn1
因此, β n → α \beta_{n}\rightarrow\alpha βnα
具体形状如何呢?
下面给出实验性状图:图2是前提,对于常步长因子, ϵ \epsilon ϵ的影响很大;图3和图4是不同 ϵ \epsilon ϵ下,bias和非bias的常步长因子方法的性状图比较;图5是加大有偏( Q 1 ( a ) ≐ 50 Q_{1}(a)\doteq50 Q1(a)50)的细节图;图6是不稳定情况下,bias、常步长与样本平均方法的比较。

图3、4、5说明,bias可以迅速消除有偏,图6说明,它可以一定程度保持常步长因子方法的抗不稳定性,至少与样本平均相比是更优的。

图2 常步长因子
图2 常步长因子
图3 常步长因子与bias
图3 常步长因子与bias
图4 常步长因子与bias
图4 常步长因子与bias
图5 常步长因子与bias
图5 常步长因子与bias
图6 三种方法
图6 三种方法


备注:如图7,事实上,对于不稳定环境,加入 ϵ \epsilon ϵ可以改善样本平均方法。

图7 三种方法
图7 三种方法


总结:
➀、bias与样本平均可以迅速消除有偏;
➁、bias与常步长有抗不稳定性;
➂、常步长不适合加入 ϵ \epsilon ϵ
➃、样本平均加入 ϵ \epsilon ϵ可以各方面效果优异。(很大地改善不抗稳定性)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值