2.2 Action-value Method 动作-值方法

最新推荐文章于 2023-10-26 21:55:32 发布

eowyn0406

最新推荐文章于 2023-10-26 21:55:32 发布

阅读量1k

点赞数 3

分类专栏：强化学习文章标签： RL 强化学习

本文链接：https://blog.csdn.net/eowyn0406/article/details/89678705

版权

强化学习专栏收录该内容

11 篇文章 3 订阅

订阅专栏

我们先来了解一些简单的用于估计动作值，和如何用估计值来选择动作的方法。

估计动作值：采样平均法。

回顾一下：值是什么？一个动作的真实值是当这个动作被选取了，我们获得的奖励的平均值。那么自然而然，一种估计动作值的方法就是用当前获得的奖励的平均值来表示真实值：

$Q_t(a)\doteq \frac{\text{sum of rewards when } a\text{ taken prior to } t}{\text{number of times } a \text{ taken prior to }t} = \frac{\sum_{i=1}^{t-1}R_i \mathfrak{1}_{A_i=a} }{\sum_{i=1}^{t-1} \mathfrak{1}_{A_i=a}}$ ，

其中 $\mathfrak{1}_{A_i=a}$ 表示采取了a动作则等于1，否则等于0. 如果分母为0，则设其为一个默认值，比如0。随着分母逐渐趋于无穷大，根据大数定理， Q_t(a) 最终收敛于 q_*(a) . 我们把这种估计动作值的方法称为采样平均法，因为它的每一个估计都是是相关奖励的一个采样的平均值。当然，这并不是唯一的，也不一定是最好的预估动作值的方法。但是我们现在就用这个方法，来说明如何用这个估计值来选择动作。

这个公式看起来吓死人，其实就是把当前时刻t之间的所有已知的动作a的奖励求平均，比如当前时刻为11，那么选择一共进行了10步了，其中有5步（1,3,4,7,8）选择了a动作，获得了5个关于动作a的奖励，那么当前时刻a的值就是：

$Q_{11}(a) =\frac{1*R_1+0*R_2+1*R_3+1*R_4+0*R_5+0*R_6+1*R_7+1*R_8+0*R_9+0*R_{10}}{5} \\= \frac{R_1 +R_3+R_4+R_7+R_8}{5}$

最简单的动作选择原则就是选择当前具有最高估计值的那个动作，即选择贪婪动作。如果有超过1个贪婪动作，那么你可以任意（arbitrary）选择其中一个，或者用平均随机（random）选择其中一个，我们把选择贪婪动作的选择方法记为：

（arbitrary具有主观随机的意思，主观性更强，意思是你可以随心所欲地选择其中一个，随你喜欢；random的意思是每一个动作被选到的概率是一样的，他的英文解释是A random sample or method is one in which all the people or things involved have an equal chance of being chosen.）

$A_t\doteq \mathop{\text{argmax}}\limits_{a}Q_t(a)$

argmax的意思是取使 Q_t(a) 最大的动作。贪婪动作选择总是利用当前的认知，使得即时奖励最大；它不会花时间在看起来明显较差的动作上，不会去看看它们是不是一个更好的动作。

另一种动作选择方法是：在大部分时间采取贪婪选择方法，而在某些时候，比如以一个较小的概率 $\varepsilon$ ，不选择贪婪动作，而是在所有动作中随机选择一个。（比如 $\varepsilon = 0.1$ ，就是10次里有9次选择贪婪动作，而有一次在所有动作中随机选择（包括贪婪动作））我们把这种接近贪婪选择方法的方法称为 $\varepsilon -$ 贪心算法，这个方法的好处是，由于步数不可能无限增大，那么在有限的采样步数下，这种方法可以保证每一个动作都被采样了若干次，这就保证了 Q_t(a) 收敛于 q_*(a) . 这当然意味着选择最优动作的概率收敛到大于 $1-\varepsilon$ （很好理解吧，10次有9次肯定选择贪婪动作，也就是最优动作，而还有1次可能选到贪婪动作，所以概率大于0.9），即接近确定。然而，这些只是渐近保证，并不能说这种方法实际有效。

答案是作者个人理解，仅供参考。

练习2.1：在 $\varepsilon -$ 贪心算法中，假设有两个动作，且 $\varepsilon =0.5$ ，那么贪婪动作被选到的概率是多大。

有0.5的概率一定选择贪婪动作，还有0.5的概率在两个动作中选择一个，贪婪动作被选到的概率是0.5，因此，贪婪动作被选中的概率是，这个值大于1-0.5。

联系2.2：老虎机例子。假设一个k摇臂老虎机问题中，k=4，有四个动作，标示为1,2,3,4。考虑用 $\varepsilon -$ 贪心策略作为动作选择方法，用采样平均法作为动作-值评估方法，且所有动作的初始值 Q_1(a) 设为0. 假设初始动作和奖励的序列为 A_1=1 , R_1=1 , A_2=2 , R_2=1 , A_3 =2 , R_3=2 , A_4=2 , R_4=2 , A_5=3 , R_5=0 . 在这些步数中， $\varepsilon$ 可能发生了，而导致随机选择动作的情况。那么，哪些步骤中，随机选择肯定发生了？哪些步骤中可能发生了呢？