第二章多臂老虎机（二）

最新推荐文章于 2024-05-31 09:46:59 发布

苏摩bengal

最新推荐文章于 2024-05-31 09:46:59 发布

阅读量416

点赞数

分类专栏： Reinforcement Learning Introduction

Reinforcement Learning Introduction 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

最佳初始值

有偏（bias）：
定义：依赖于初始值的方法称为对初始值有偏。
断言：样本平均方法遍历完所以动作之后，有偏会消失；常数步长因子方法不会。
证明： $\because N(A)=1 \Rightarrow Q(A)=Q(A)+\frac{1}{N(a)}(R-Q(A))=R$
最佳初始值（optimistic initial values）:
定义：能促进探索的初始值称为最佳初始值。
例子：10-臂老虎机，令初始值 $Q_{1}(a)=+5$ 。根据 $\epsilon$ -贪心算法，所有的动作将会被遍历。如图1：
习题：
Ex.2.6. Mysterious Spikes： 图1中，早期为什么会出现震荡和脉冲？评价最佳初始值在早期的表现。
解：对于常数步长因子方法，在遍历一遍之后，动作值普遍下降，实际值大的动作当前值也大，此时贪心算法会选择正确动作。但随着正确动作被选择次数增多，当前值会降低，此时贪心算法将会选择其他的动作，因此对于最佳动作选择比的形状图，形成了脉冲和震荡。
Ex.2.7 Unbiased Constant-Step-Size Trick： 当我们既需要初始值无偏，又面对不稳定环境的时候，我们该怎么办呢？下面方法就是在常步长方法下的改良：
令 $\beta_{n}\doteq \alpha/\bar{o}_{n}$
其中 $\alpha$ 是常数步长因子，
$\bar{o}_{n}\doteq\bar{o}_{n-1}+\alpha(1-\bar{o}_{n-1}),\ with\ \bar{o}_{0}=0$
证明： $Q_{n}$ 初始值无偏。
解：
给定初始值 $Q_{1}(a)=c$ ，要证明有限步之后， $Q_{n}(a)$ 与 $Q_{1}(a)$ 无关，对于任意a。
任意给定一个动作，当第二次选中这个动作时， $n = N (a) = 2$ ，且
$\bar{o}_{1}=\bar{o}_{0}+\alpha(1-\bar{o}_{0})=\alpha\\ \beta_{1}= \alpha/\bar{o}_{1}=1\\ \therefore Q_{2}(a)=Q_{1}(a)+\beta_{1}\left(R-Q_{1}(a) \right)=R$
遍历所有动作后，消除有偏。

备注： 怎么看待这个改进？
解：公式的不动点为1，即
$\bar{o}_{n}\rightarrow 1$
因此， $\beta_{n}\rightarrow\alpha$
具体形状如何呢？
下面给出实验性状图：图2是前提，对于常步长因子， $\epsilon$ 的影响很大；图3和图4是不同 $\epsilon$ 下，bias和非bias的常步长因子方法的性状图比较；图5是加大有偏（ $Q_{1}(a)\doteq50$ ）的细节图；图6是不稳定情况下，bias、常步长与样本平均方法的比较。

图3、4、5说明，bias可以迅速消除有偏，图6说明，它可以一定程度保持常步长因子方法的抗不稳定性，至少与样本平均相比是更优的。

图2 常步长因子	图2 常步长因子
图3 常步长因子与bias	图3 常步长因子与bias
图4 常步长因子与bias	图4 常步长因子与bias
图5 常步长因子与bias	图5 常步长因子与bias
图6 三种方法	图6 三种方法

备注：如图7，事实上，对于不稳定环境，加入 $\epsilon$ 可以改善样本平均方法。

图7 三种方法

总结：
➀、bias与样本平均可以迅速消除有偏；
➁、bias与常步长有抗不稳定性；
➂、常步长不适合加入 $\epsilon$ ；
➃、样本平均加入 $\epsilon$ 可以各方面效果优异。（很大地改善不抗稳定性）

苏摩bengal

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第二章多臂老虎机（二）

最佳初始值有偏（bias）：定义：依赖于初始值的方法称为对初始值有偏。断言：样本平均方法遍历完所以动作之后，有偏会消失；常数步长因子方法不会。证明：∵N(A)=1⇒Q(A)=Q(A)+1N(a)(R−Q(A))=R\because N(A)=1 \Rightarrow Q(A)=Q(A)+\frac{1}{N(a)}(R-Q(A))=R∵N(A)=1⇒Q(A)=Q(A)+N(a)1(R...
复制链接

扫一扫