Context-free Bandit算法

最新推荐文章于 2022-07-15 18:50:43 发布

BalanceX

最新推荐文章于 2022-07-15 18:50:43 发布

阅读量1.1k

点赞数

分类专栏：推荐系统文章标签：推荐

本文链接：https://blog.csdn.net/weixin_42944192/article/details/100851827

版权

文章是对Context-free Bandit算法进行总结，以及对每个策略的一些思考。主要会从以下4个方面说明Context-free Bandit，如有问题，欢迎指正讨论~

1、Bandit来源

2、应用场景

3、算法原理

4、算法缺点

来源

多臂老虎机:

刚进赌场，每个臂代表着一个老虎机，怎么选择最优的赢钱策略

1、推荐系统中的EE问题

2、推荐系统的冷启动问题

主要通过前期实验，来刻画每一个新用户对每个Topic的感兴趣概率

1、每一个臂：代表不同的Topic

2、在推荐场景中，针对每一个用户，用Bandit策略为每一个Topic采样/计算一个得分。

3、得到得分后，进行排序，输出TopN的推荐

4、获取用户的反馈，更新到Bandit策略中

5、用户反馈评估方法：累积遗憾
$R_T = \sum_{i=1}^T(w_* - W_{B(i)})$

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注