UCB（Upper Confidence Bound）算法

最新推荐文章于 2024-12-29 23:42:06 发布

EricLi404

最新推荐文章于 2024-12-29 23:42:06 发布

阅读量8.5k

点赞数 6

分类专栏：机器学习推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leiflyy/article/details/109475933

版权

机器学习同时被 2 个专栏收录

3 篇文章

订阅专栏

2 篇文章

订阅专栏

UCB（Upper Confidence Bound）算法

在推荐系统中，通常量化一个物品的收益率（或者说点击率）是使用点击数/展示数，例如点击为10，展示数为8，则估计的点击率为80%，在展示数达到10000后，其表现ctr是否还能达到80%呢？显然是不可能的。而这就是统计学中的置信度问题，计算点击率的置信区间的方法也有很多，比如威尔逊置信空间

UCB算法步骤包括：首先对所有item的尝试一下，然后每次选择score值最大的那个：

Input: N arms, number of rounds T >= N

step.1. For t = 1 … N, play arm t
step.2. For t = N+1 … T, play arm

其中step.2. 中，play arm 时选取的item应该是经过排序的，排序score的计算方式为：
$\frac { C _ { j, t } } { T _ { j , t } } + \sqrt { \frac { 2 \ln t } { T _ { j , t } } }$

其中，式子“+”的左半部分为物品到目前的收益均值，右半部分本质上是均值的标准差。

t: 总实验次数
T(j,t) ： j 帖子被推荐次数
C(j,t) ：j 帖子被点击次数

这个公式表明随着每个物品试验次数的增加，其置信区间就越窄，收益概率就越能确定。如果收益均值越大，则被选中的机会就越大（exploit），如果收益均值越小，其被选中的概率也就越少，同时哪些被选次数较少的item也会得到试验机会，起到了explore的作用。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。