Bandit算法

最新推荐文章于 2023-12-05 11:26:34 发布

赵文淮

最新推荐文章于 2023-12-05 11:26:34 发布

阅读量292

点赞数

分类专栏：推荐算法

本文链接：https://blog.csdn.net/eyeshere/article/details/101371537

版权

推荐算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Bandit算法

算法思想
常见的Bandit算法

算法思想

累计遗憾
$\sum_{i=1}^T (G_{opt}^* - G_{i})$
$G_{opt}^*$ 是最优选择方案的收益， $G_{i}$ 是实际采取的选择的收益。
目标是累计遗憾最小。

更多选择确定好的方案
更少寻找确定不好的方案
更多选择不确定好坏的方案

常见的Bandit算法

汤普森采样

Beta分布的PDF概率密度函数为：
$\frac{1}{B(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}$
其中：
$B(\alpha, \beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$

当 $\alpha+\beta$ 越大，曲线越窄，分布越集中。
当 $\frac{\alpha}{\alpha+\beta}$ 越大，中心越接近于1；反之则越接近于0。

则可分为三种情况：

$\alpha+\beta$ 很大，并且 $\frac{\alpha}{\alpha+\beta}$ 很大，分布很窄，中心接近于1
$\alpha+\beta$ 很大，并且 $\frac{\alpha}{\alpha+\beta}$ 很小，分布很窄，中心接近于0
$\alpha+\beta$ 很小，分布很宽

当Beta分布用到推荐系统时， $\alpha$ 可表示推荐后用户点击次数， $\beta$ 可表示推荐后用户未点击次数。每个用户每个商品都要维护各自的 $\alpha和\beta$ 。

$\alpha+\beta$ 很大，并且 $\frac{\alpha}{\alpha+\beta}$ 很大，表示该物品用户比较大可能点击，是个好的候选项，起到利用Exploit的作用。
$\alpha+\beta$ 很大，并且 $\frac{\alpha}{\alpha+\beta}$ 很小，表示该物品用户比较小可能点击，是个坏的候选项
$\alpha+\beta$ 很小，表示该物品被推荐的次数比较少，用户是否点击不太确定，需要多推荐。起到探索Explore的作用。

choice = numpy.argmax(pymc.rbeta(1 + self.wins, 1 + self.trials - self.wins))

UCB算法

置信区间上界。为每个臂评分，每次选出评分最高的臂输出，然后观察用户反馈，再更新相应的臂的参数。
每个臂的评分为：
$\overline X_j(t) + \sqrt{\frac{2lnt}{T_j,_t}}$

$\overline X_j(t)$ 是该候选臂到目前为止的平均收益， $T_j,_t$ 是该候选臂被选择的次数，t为总的选择次数。
算法思想和汤普森采样一样：

以每个候选臂的平均收益为基准进行选择。
对于选择次数不足的给予照顾。
倾向于选择那些确定收益较好的选择。

 for arm in range(n_arms):
   bonus = math.sqrt((2 * math.log(total_counts)) / float(counts[arm]))
   new_rewards[arm] = old_rewards[arm] + bonus

Epsilon算法

$\begin{cases} 随机选择一个臂, & 以\epsilon概率 \\[2ex] 选择最大平均收益的臂， & 以1-\epsilon概率 \end{cases}$

   if random.random() > epsilon:
      return ind_max(rewards)
    else:
      return random.randrange(len(rewards))

反馈更新： $new\_reward =\frac{n-1}{n}* old\_reward +\frac{1}{n} * reward$

赵文淮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bandit算法

算法思想累计遗憾∑i=1T(Gopt∗−Gi)\sum_{i=1}^T (G_{opt}^* - G_{i})i=1∑T(Gopt∗−Gi)Gopt∗G_{opt}^*Gopt∗是最优选择方案的收益，GiG_{i}Gi是实际采取的选择的收益。目标是累计遗憾最小。更多选择确定好的方案更少寻找确定不好的方案更多选择不确定好坏的方案常见的Bandit算法汤普森采样B...
复制链接

扫一扫