文章是对Context-free Bandit算法进行总结,以及对每个策略的一些思考。主要会从以下4个方面说明Context-free Bandit,如有问题,欢迎指正讨论~
1、Bandit来源
2、应用场景
3、算法原理
4、算法缺点
来源
多臂老虎机:
刚进赌场,每个臂代表着一个老虎机,怎么选择最优的赢钱策略
应用场景
1、推荐系统中的EE问题
2、推荐系统的冷启动问题
原理(有策略地快速试一试)
1、整体框架(Bandit如何同推荐场景结合)
主要通过前期实验,来刻画每一个新用户对每个Topic的感兴趣概率
1、每一个臂:代表不同的Topic
2、在推荐场景中,针对每一个用户,用Bandit策略为每一个Topic采样/计算一个得分。
3、得到得分后,进行排序,输出TopN的推荐
4、获取用户的反馈,更新到Bandit策略中
5、用户反馈评估方法:累积遗憾
R T = ∑ i = 1 T ( w ∗ − W B ( i ) ) R_T = \sum_{i=1}^T(w_* - W_{B(i)}) RT=i=1∑