深入浅出强化学习编程实战——第一章笔记

最新推荐文章于 2024-07-10 11:19:54 发布

Mr_Wang_up

最新推荐文章于 2024-07-10 11:19:54 发布

阅读量1.1k

点赞数

分类专栏：深入浅出强化学习编程实战

本文链接：https://blog.csdn.net/qq_42031142/article/details/114762869

版权

深入浅出强化学习编程实战专栏收录该内容

3 篇文章 2 订阅

订阅专栏

深入浅出强化学习编程实战(第一章) 一个极其简单的强化学习案例

1、图1.3中算法的理解：

前文提到，每个手臂对应了一个金币的分布概率，有概率就会有均值，这个算法的核心在于找到一个均值最大的手臂，所以我们只需要通过采样得到每个手臂的均值，然后每次通过 $\varepsilon -greedy$ 策略以 $1-\varepsilon$ 的概率挑均值大的手笔，以 $\varepsilon$ 的概率挑选剩下的动作。随着采样的进行，对每个手臂的均值的估计逐渐逼近真实均值，最后返回总的奖励R(a)。

当训练足够多的次数之后，三条手臂的均值约等于真实的均值，此时训练的最终结果就是以较大概率摇动均值最大的手臂，以较小概率摇动均值较小的手臂。(我认为最优策略到最后应该没有探索的功能，因为到最后已经找到了最优手臂，这其实也是后面RL算法中涉及到的off-policy，这里不做展开讨论)

这里的难点在与求解均值的时候采用了增量式求解方法，如下面公式所述。

2、 $\varepsilon -greedy$ 策略将除去最优动作之外的其他动作看作是相等的动作，没有好坏之分，所以其他动作被选择的概率都是 $\frac{\varepsilon }{|A|}$ ，而最优动作的概率为 $1-\varepsilon +\frac{\varepsilon }{|A|}$ 。

怎么得到的？因为动作总数是|A|，所以其他动作的个数是|A|-1，所以 $1-\varepsilon +\frac{\varepsilon }{|A|}+\frac{\varepsilon }{|A|}*\left ( |A|-1 \right )=1-\varepsilon +\frac{\varepsilon }{|A|}+\varepsilon -\frac{\varepsilon }{|A|}=1$ ，这就是各个动作概率的来历。