推荐系统的EE(Explore-Exploit, 探索-利用)问题

最新推荐文章于 2024-01-25 01:52:47 发布

yichudu

最新推荐文章于 2024-01-25 01:52:47 发布

阅读量6.2k

点赞数

分类专栏：推荐系统

天天开心

本文链接：https://blog.csdn.net/chuchus/article/details/78902086

版权

推荐系统专栏收录该内容

26 篇文章 8 订阅

订阅专栏

简介

k-摇臂赌博机, k-armed bandit.
一个经典的模型. 这种赌博机有k个摇臂, 玩家投一个游戏币以后可以按下任意一个摇臂, 每个摇臂以一定的概率吐出硬币, 作为奖赏. 但这个概率玩家并不知道. 玩家的目标是通过一定的策略获得最大化的累积奖赏.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iOxfw7hi-1627525189766)(http://i.imgur.com/lgMM5xb.png?_=2030128412)]

探索
exploration-only.
将所有的机会均分给每个摇臂, 根据每个摇臂各自的吐硬币频率, 去近似它的吐硬币概率.
利用
exploitation-only. 根据已有的结论, 每次都选择最稳妥的方案.

用途

用在个性化推荐中, 帮助用户探索新偏好, 不然推荐来推荐去都是差不多的东西.
内容冷启动, 给新内容有出头之日的机会.

策略及变种

Epsilon-Greedy

因为尝试次数有限(游戏币有限), 所以探索与利用是相矛盾的. $\epsilon$ 贪心算法对二者进行折中, 每次尝试时, 以 $\epsilon$ 的概率从k个摇臂中随机选一个进行探索, 以 $1-\epsilon$ 的概率选择已知吐硬币概率最大的摇臂进行利用.

Upper Confidence Bound

UCB, Upper Confidence Bound, 上界置信区间.
公式见下面. 基本思想是: 综合考虑一个摇臂的平均收益和它的上界置信区间,上界置信区间即 收益稳定性.

公式一
$score(j)=\bar {x_j}+\sqrt{\frac {2\ln n}{n_j}} \tag 1$
where $\bar {x_j}$ is 第j个摇臂的平均收益; $n_j$ 是当前为止第 j 个摇臂的选择次数; $n$ 是当前为止总的选择次数.

式(1)中的第二项表示置信区间上界, 同一个摇臂选中次数越多, 该项的值越小, 即置信区间上界越小表示确定向越大.
公式二
where $\hat\mu_i(t)$ 表示第i个臂目前为止的平均收益, $T_i(t)$ 表示第i个臂目前为止的选中次数, f(t)表示对次数的考虑, 一般 $f (t) = t$ .
figure 公式盗图, 来自参考[2].

汤普森采样

见参考[3].
把item的点击率用beta分布来描述, 不断根据后验反馈来修正分布密度函数中的 $\alpha,\beta$ 参数.

Collaborative Filtering Bandits

见参考[4].

参考

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。