强化学习R&R总结

最新推荐文章于 2024-04-25 15:47:38 发布

这梦想不休不止

最新推荐文章于 2024-04-25 15:47:38 发布

阅读量1.7k

点赞数

分类专栏：强化学习R&R

本文链接：https://blog.csdn.net/qq_36616268/article/details/82945012

版权

强化学习R&R 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天在看蒙特卡洛搜索树的时候，看到了UCB(upper confident bound)，然后顺眼查到了一些其他很有趣的算法，在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。

第一个 e贪婪

这个我就不展开解释了。应用的范围太广了，而且很多情况下比较依赖于e的取值

第二种 SoftMax算法：

以k摇臂赌博机为例子，SoftMax是对探索与利用的一个折中的方法，若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当；如果某些概率的平均奖赏明显高于其他奖赏，则它们被选的概率也明显高。

用到的公式如下：，Q表示当前摇臂的平均奖赏，r表示温度，达于0，若r趋于0，p能充分的代表各个摇臂的平均价值，理解为仅利用，如果趋于无穷大，各个摇臂的概率则趋于相等，则为仅探索。

这个算法需要给定的参数为r，下面展示一下参数选择对以上两种算法的影响。

在softmax算法的基础上又提出了退火 softmax，即 Annealing softmax算法，这个算法是随着时间的推进不断地r，从而减少探索，更加侧重以往的经验利用。同时e贪婪算法，也可以有同样的操作。

以上两种算法，softmax是对e贪心的一个折中，使得其在随机阶段不是完全的随机，而是根据以往的经验进行随机。

第三种 UCB（upper confidence bound）

这个算法也是我这次写这篇博客的原因。该算法除了要考虑收益外，还要考虑收益的置信度是多少

，置信度公式计算方法如图，其中Ui,t表示，机械臂i到当前t时刻的平均收益（当然有可能t时刻内没有摇中几次），ni,t机械臂t时刻摇的次数。后边这一项表示的就是置信度，我们考虑n次全部抽重一个摇臂，随着n次抽取的过程，后面的这个置信数值会越来越大，而如果两次一次重中k，和三次一次抽重k，置信度比的化，虽然前一项ui，t数值没有变，但是我们相比之前更加倾向于选择这个数值，其置信度相比之前要更高一些，因此UCB更高一些。

之后出现了UCB2算法，添加了遗憾机制：算法流程如下：

随后出现了LinUCB（在这里只是记录方法，如果要详细探索，请查看具体论文）

第四种 Thompson sampling

UCB算法部分使用概率分布（仅置信区间上界）来量化不确定性。而Thompson sampling基于贝叶斯思想，全部用概率分布来表达不确定性。

假设每个item有一个产生回报的概率p，我们通过不断试验来估计一个置信度较高的概率p的概率分布。如何估计概率p的概率分布呢？假设概率p的概率分布符合beta(wins, lose)分布，它有两个参数: wins, lose，每个item都维护一个beta分布的参数。每次试验选中一个item，有回报则该item的wins增加1，否则lose增加1。每次选择item的方式是：用每个item现有的beta分布产生一个随机数b，选择所有item产生的随机数中最大的那个item。