最佳初始值
- 有偏(bias):
定义:依赖于初始值的方法称为对初始值有偏。 - 断言:样本平均方法遍历完所以动作之后,有偏会消失;常数步长因子方法不会。
证明: ∵ N ( A ) = 1 ⇒ Q ( A ) = Q ( A ) + 1 N ( a ) ( R − Q ( A ) ) = R \because N(A)=1 \Rightarrow Q(A)=Q(A)+\frac{1}{N(a)}(R-Q(A))=R ∵N(A)=1⇒Q(A)=Q(A)+N(a)1(R−Q(A))=R - 最佳初始值(optimistic initial values):
定义:能促进探索的初始值称为最佳初始值。
例子:10-臂老虎机,令初始值 Q 1 ( a ) = + 5 Q_{1}(a)=+5 Q1(a)=+5。根据 ϵ \epsilon ϵ-贪心算法,所有的动作将会被遍历。如图1:
- 习题:
Ex.2.6. Mysterious Spikes: 图1中,早期为什么会出现震荡和脉冲?评价最佳初始值在早期的表现。
解:对于常数步长因子方法,在遍历一遍之后,动作值普遍下降,实际值大的动作当前值也大,此时贪心算法会选择正确动作。但随着正确动作被选择次数增多,当前值会降低,此时贪心算法将会选择其他的动作,因此对于最佳动作选择比的形状图,形成了脉冲和震荡。
Ex.2.7 Unbiased Constant-Step-Size Trick: 当我们既需要初始值无偏,又面对不稳定环境的时候,我们该怎么办呢?下面方法就是在常步长方法下的改良:
令 β n ≐ α / o ˉ n \beta_{n}\doteq \alpha/\bar{o}_{n} βn≐α/oˉn
其中 α \alpha α是常数步长因子,
o ˉ n ≐ o ˉ n − 1 + α ( 1 − o ˉ n − 1 ) , w i t h o ˉ 0 = 0 \bar{o}_{n}\doteq\bar{o}_{n-1}+\alpha(1-\bar{o}_{n-1}),\ with\ \bar{o}_{0}=0 oˉn≐oˉn−1+α(1−oˉn−1), with oˉ0=0
证明: Q n Q_{n} Qn初始值无偏。
解:
给定初始值 Q 1 ( a ) = c Q_{1}(a)=c Q1(a)=c,要证明有限步之后, Q n ( a ) Q_{n}(a) Qn(a)与 Q 1 ( a ) Q_{1}(a) Q1(a)无关,对于任意a。
任意给定一个动作,当第二次选中这个动作时, n = N ( a ) = 2 n=N(a)=2 n=N(a)=2,且
o ˉ 1 = o ˉ 0 + α ( 1 − o ˉ 0 ) = α β 1 = α / o ˉ 1 = 1 ∴ Q 2 ( a ) = Q 1 ( a ) + β 1 ( R − Q 1 ( a ) ) = R \bar{o}_{1}=\bar{o}_{0}+\alpha(1-\bar{o}_{0})=\alpha\\ \beta_{1}= \alpha/\bar{o}_{1}=1\\ \therefore Q_{2}(a)=Q_{1}(a)+\beta_{1}\left(R-Q_{1}(a) \right)=R oˉ1=oˉ0+α(1−oˉ0)=αβ1=α/oˉ1=1∴Q2(a)=Q1(a)+β1(R−Q1(a))=R
遍历所有动作后,消除有偏。
备注: 怎么看待这个改进?
解: 公式的不动点为1,即
o
ˉ
n
→
1
\bar{o}_{n}\rightarrow 1
oˉn→1
因此,
β
n
→
α
\beta_{n}\rightarrow\alpha
βn→α
具体形状如何呢?
下面给出实验性状图:图2是前提,对于常步长因子,
ϵ
\epsilon
ϵ的影响很大;图3和图4是不同
ϵ
\epsilon
ϵ下,bias和非bias的常步长因子方法的性状图比较;图5是加大有偏(
Q
1
(
a
)
≐
50
Q_{1}(a)\doteq50
Q1(a)≐50)的细节图;图6是不稳定情况下,bias、常步长与样本平均方法的比较。
图3、4、5说明,bias可以迅速消除有偏,图6说明,它可以一定程度保持常步长因子方法的抗不稳定性,至少与样本平均相比是更优的。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
备注:如图7,事实上,对于不稳定环境,加入 ϵ \epsilon ϵ可以改善样本平均方法。
![]() |
![]() |
总结:
➀、bias与样本平均可以迅速消除有偏;
➁、bias与常步长有抗不稳定性;
➂、常步长不适合加入
ϵ
\epsilon
ϵ;
➃、样本平均加入
ϵ
\epsilon
ϵ可以各方面效果优异。(很大地改善不抗稳定性)