简介
k-摇臂赌博机, k-armed bandit.
一个经典的模型. 这种赌博机有k个摇臂, 玩家投一个游戏币以后可以按下任意一个摇臂, 每个摇臂以一定的概率吐出硬币, 作为奖赏. 但这个概率玩家并不知道. 玩家的目标是通过一定的策略获得最大化的累积奖赏.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iOxfw7hi-1627525189766)(http://i.imgur.com/lgMM5xb.png?_=2030128412)]
- 探索
exploration-only.
将所有的机会均分给每个摇臂, 根据每个摇臂各自的吐硬币频率, 去近似它的吐硬币概率. - 利用
exploitation-only. 根据已有的结论, 每次都选择最稳妥的方案.
用途
- 用在个性化推荐中, 帮助用户探索新偏好, 不然推荐来推荐去都是差不多的东西.
- 内容冷启动, 给新内容有出头之日的机会.
策略及变种
Epsilon-Greedy
因为尝试次数有限(游戏币有限), 所以探索
与利用
是相矛盾的.
ϵ
\epsilon
ϵ贪心算法对二者进行折中, 每次尝试时, 以
ϵ
\epsilon
ϵ的概率从k个摇臂中随机选一个进行探索, 以
1
−
ϵ
1-\epsilon
1−ϵ的概率选择已知吐硬币概率最大
的摇臂进行利用.
Upper Confidence Bound
UCB, Upper Confidence Bound, 上界置信区间.
公式见下面. 基本思想是: 综合考虑一个摇臂的平均收益
和它的上界置信区间,上界置信区间即 收益稳定性
.
-
公式一
s c o r e ( j ) = x j ˉ + 2 ln n n j (1) score(j)=\bar {x_j}+\sqrt{\frac {2\ln n}{n_j}} \tag 1 score(j)=xjˉ+nj2lnn(1)
where x j ˉ \bar {x_j} xjˉ is 第j个摇臂的平均收益; n j n_j nj 是当前为止第 j 个摇臂的选择次数; n n n 是当前为止总的选择次数.
式(1)中的第二项表示置信区间上界, 同一个摇臂选中次数越多, 该项的值越小, 即 置信区间上界 越小表示确定向越大. -
公式二
where μ ^ i ( t ) \hat\mu_i(t) μ^i(t)表示第i个臂目前为止的平均收益, T i ( t ) T_i(t) Ti(t)表示第i个臂目前为止的选中次数, f(t)表示对次数的考虑, 一般 f ( t ) = t f(t)=t f(t)=t.
figure 公式盗图, 来自参考[2].
汤普森采样
见参考[3].
把item的点击率用beta分布来描述, 不断根据后验反馈来修正分布密度函数中的
α
,
β
\alpha,\beta
α,β参数.
Collaborative Filtering Bandits
见参考[4].
参考
- lectures/ucb1.pdf
- the-upper-confidence-bound-algorithm
- 推荐系统EE问题与Bandit算法
- Collaborative Filtering Bandits
- Exploitation and Exploration in a Performance based Contextual Advertising System
- paper,A Contextual-Bandit Approach to Personalized News Article Recommendation
- paper,Exploitation and Exploration in a Performance based Contextual Advertising System
- paper,Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms