推荐系统的EE(Explore-Exploit, 探索-利用)问题

简介

k-摇臂赌博机, k-armed bandit.
一个经典的模型. 这种赌博机有k个摇臂, 玩家投一个游戏币以后可以按下任意一个摇臂, 每个摇臂以一定的概率吐出硬币, 作为奖赏. 但这个概率玩家并不知道. 玩家的目标是通过一定的策略获得最大化的累积奖赏.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iOxfw7hi-1627525189766)(http://i.imgur.com/lgMM5xb.png?_=2030128412)]

  • 探索
    exploration-only.
    将所有的机会均分给每个摇臂, 根据每个摇臂各自的吐硬币频率, 去近似它的吐硬币概率.
  • 利用
    exploitation-only. 根据已有的结论, 每次都选择最稳妥的方案.

用途

  • 用在个性化推荐中, 帮助用户探索新偏好, 不然推荐来推荐去都是差不多的东西.
  • 内容冷启动, 给新内容有出头之日的机会.

策略及变种

Epsilon-Greedy

因为尝试次数有限(游戏币有限), 所以探索利用是相矛盾的. ϵ \epsilon ϵ贪心算法对二者进行折中, 每次尝试时, 以 ϵ \epsilon ϵ的概率从k个摇臂中随机选一个进行探索, 以 1 − ϵ 1-\epsilon 1ϵ的概率选择已知吐硬币概率最大的摇臂进行利用.

Upper Confidence Bound

UCB, Upper Confidence Bound, 上界置信区间.
公式见下面. 基本思想是: 综合考虑一个摇臂的平均收益和它的上界置信区间,上界置信区间即 收益稳定性.

  • 公式一
    s c o r e ( j ) = x j ˉ + 2 ln ⁡ n n j (1) score(j)=\bar {x_j}+\sqrt{\frac {2\ln n}{n_j}} \tag 1 score(j)=xjˉ+nj2lnn (1)
    where x j ˉ \bar {x_j} xjˉ is 第j个摇臂的平均收益; n j n_j nj 是当前为止第 j 个摇臂的选择次数; n n n 是当前为止总的选择次数.
    在这里插入图片描述
    式(1)中的第二项表示置信区间上界, 同一个摇臂选中次数越多, 该项的值越小, 即 置信区间上界 越小表示确定向越大.

  • 公式二这里写图片描述
    where μ ^ i ( t ) \hat\mu_i(t) μ^i(t)表示第i个臂目前为止的平均收益, T i ( t ) T_i(t) Ti(t)表示第i个臂目前为止的选中次数, f(t)表示对次数的考虑, 一般 f ( t ) = t f(t)=t f(t)=t.
    figure 公式盗图, 来自参考[2].

汤普森采样

见参考[3].
把item的点击率用beta分布来描述, 不断根据后验反馈来修正分布密度函数中的 α , β \alpha,\beta α,β参数.

Collaborative Filtering Bandits

见参考[4].

参考

  1. lectures/ucb1.pdf
  2. the-upper-confidence-bound-algorithm
  3. 推荐系统EE问题与Bandit算法
  4. Collaborative Filtering Bandits
  5. Exploitation and Exploration in a Performance based Contextual Advertising System
  6. paper,A Contextual-Bandit Approach to Personalized News Article Recommendation
  7. paper,Exploitation and Exploration in a Performance based Contextual Advertising System
  8. paper,Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值