强化学习R&R总结

今天在看蒙特卡洛搜索树的时候,看到了UCB(upper confident bound),然后顺眼查到了一些其他很有趣的算法,在这里特意记录一下。这些算法主要都是针对更好的平衡探索与利用而开发出来的。

第一个 e贪婪

这个我就不展开解释了。应用的范围太广了,而且很多情况下比较依赖于e的取值

第二种 SoftMax算法:

以k摇臂赌博机为例子,SoftMax是对探索与利用的一个折中的方法,若各摇臂的平均奖赏相当,则选取各摇臂的概率也相当;如果某些概率的平均奖赏明显高于其他奖赏,则它们被选的概率也明显高。

用到的公式如下:,Q表示当前摇臂的平均奖赏,r表示温度,达于0,若r趋于0,p能充分的代表各个摇臂的平均价值,理解为仅利用,如果趋于无穷大,各个摇臂的概率则趋于相等,则为仅探索。

这个算法需要给定的参数为r,下面展示一下参数选择对以上两种算法的影响。

在softmax算法的基础上又提出了 退火 softmax,即 Annealing softmax算法,这个算法是随着时间的推进不断地r,从而减少探索,更加侧重以往的经验利用。同时e贪婪算法,也可以有同样的操作。

以上两种算法,softmax是对e贪心的一个折中,使得其在随机阶段不是完全的随机,而是根据以往的经验进行随机。

第三种 UCB(upper confidence bound)

这个算法也是我这次写这篇博客的原因。该算法除了要考虑收益外,还要考虑收益的置信度是多少

,置信度公式计算方法如图,其中Ui,t表示,机械臂i到当前t时刻的平均收益(当然有可能t时刻内没有摇中几次),ni,t机械臂t时刻摇的次数。后边这一项表示的就是置信度,我们考虑n次全部抽重一个摇臂,随着n次抽取的过程,后面的这个置信数值会越来越大,而如果两次一次 重中k,和三次一次抽重k,置信度比的化,虽然前一项ui,t数值没有变,但是我们相比之前更加倾向于选择这个数值,其置信度相比之前要更高一些,因此UCB更高一些。

之后出现了UCB2算法,添加了遗憾机制:算法流程如下:

随后出现了LinUCB(在这里只是记录方法,如果要详细探索,请查看具体论文)

第四种 Thompson sampling

UCB算法部分使用概率分布(仅置信区间上界)来量化不确定性。而Thompson sampling基于贝叶斯思想,全部用概率分布来表达不确定性。

假设每个item有一个产生回报的概率p,我们通过不断试验来估计一个置信度较高的概率p的概率分布。如何估计概率p的概率分布呢? 假设概率p的概率分布符合beta(wins, lose)分布,它有两个参数: wins, lose, 每个item都维护一个beta分布的参数。每次试验选中一个item,有回报则该item的wins增加1,否则lose增加1。每次选择item的方式是:用每个item现有的beta分布产生一个随机数b,选择所有item产生的随机数中最大的那个item。

部分内容转载自:https://blog.csdn.net/legendavid/article/details/64439174

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值