汤普森算法_什么是汤普森采样（Thompson sampling）？

最新推荐文章于 2024-05-22 03:57:55 发布

网易《了不起的中国制造》

最新推荐文章于 2024-05-22 03:57:55 发布

阅读量2.1k

点赞数

文章标签：汤普森算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26970501/article/details/112994962

版权

最初步的是ε-Greedy Algorithm，以ε的概率，随机选一个arm， 1-ε的概率选择目前为止(第t次选择)最好的arm。更新Q(a)的公式如下。其中Nt(a)是选择action - a的次数。

然后是改进的Upper Confidence Bounds。改进的目的是低效率的随机探索；增加探索尚未置信的、uncertainty比较高的arm。也就是说，探索尽可能有潜力的arm。

所以呢，UCB给了一个置信上限，

左边第一项是真实的Q(a), 第二项是到目前第t步的得到的Q，第三项是upper bound Ut(a)，它是Nt(a)的函数，Nt(a)是目前为止操作action-a的次数，根据大数定律，N越大，U应该越小。

所以在UCB里，按照如下公式选择方案action：

怎么得到Ut(a)呢，根据Hoeffding’s Inequality，可知：

u=Ut(a)就是置信上限。如果我们要找到一个上限，使得真实的Q落在预估Q和U内的可能性最大，那么右边指数项就应该尽可能小，另右边的指数项等于p，那么我们可以推到出Ut(a) 的解析式表达：

模型迭代的目标是尽量降低p，假设

equation?tex=p%3Dt%5E%7B-4%7D ,

最低0.47元/天解锁文章

网易《了不起的中国制造》

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
汤普森算法_什么是汤普森采样（Thompson sampling）？

最初步的是ε-Greedy Algorithm，以ε的概率，随机选一个arm， 1-ε的概率选择目前为止(第t次选择)最好的arm。更新Q(a)的公式如下。其中Nt(a)是选择action - a的次数。然后是改进的Upper Confidence Bounds。改进的目的是低效率的随机探索；增加探索尚未置信的、uncertainty比较高的arm。也就是说，探索尽可能有潜力的arm。所以呢，U...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。