Context-free Bandit算法

文章是对Context-free Bandit算法进行总结,以及对每个策略的一些思考。主要会从以下4个方面说明Context-free Bandit,如有问题,欢迎指正讨论~

1、Bandit来源

2、应用场景

3、算法原理

4、算法缺点

来源

多臂老虎机:

刚进赌场,每个臂代表着一个老虎机,怎么选择最优的赢钱策略

应用场景

1、推荐系统中的EE问题

2、推荐系统的冷启动问题

原理(有策略地快速试一试)

1、整体框架(Bandit如何同推荐场景结合)


主要通过前期实验,来刻画每一个新用户对每个Topic的感兴趣概率


1、每一个臂:代表不同的Topic

2、在推荐场景中,针对每一个用户,用Bandit策略为每一个Topic采样/计算一个得分。

3、得到得分后,进行排序,输出TopN的推荐

4、获取用户的反馈,更新到Bandit策略中

5、用户反馈评估方法:累积遗憾
R T = ∑ i = 1 T ( w ∗ − W B ( i ) ) R_T = \sum_{i=1}^T(w_* - W_{B(i)}) RT=i=1

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值