Bandit Algorithms for e-commerce Recommender Systems 摘要

原文链接:
Bandit Algorithms for e-commerce Recommender Systems:extended abstract
另外参考:
bandit算法与推荐系统

一、推荐系统(item-to-item场景下)是否需要考虑强化学习?

在电子商务网站的产品页使用推荐系统,是为了通过提高增销(upsale)的几率从而增加订单价值(比如,本来想买汉堡,结果又买了一包薯条)。

如果一个推荐系统仅预测下一次购买的几率,那么很有可能就算没有推荐,下一次购买行为也会发生。实际上订单价值并没有增加。

我们真正应该注意false negtive(预测购买欲望低,但实际购买了的),这类购买的发生增加了订单价值。

二、进一步阐述

1. 术语解释

multi-armed bandit problem(MAB问题):

a)有一排老虎机,一个赌徒需要决定:玩哪台老虎机?一个老虎机玩几次?按什么顺序玩这排老虎机?
每个老虎机按它的特定概率分布,随机提供奖励。赌徒的目标就是最大化收益。
赌徒事先并不知道这些老虎机的任何信息,因此在过程中他面临exploitation-exploration困境:是去进一步探索(exploration)其他老虎机的相关信息,还是去玩(exploitation)在已知信息下期望收益最大的那台老虎机。
multi-armed bandit

b)进一步说,EE问题(exploitation-exploration)可以拓展为最大化已知和探索未知的矛盾。在实际应用中,explore的成本是显而易见的(周期长、前景未知),exploitation却是舒适的、受人欢迎的。因此大部分人乐意做exploitation,而不是exploration。

c)这个多臂问题,推荐系统里很多问题都与它类似:
· 假设一个用户对不同类别的内容感兴趣程度不同,那么我们的推荐系统初次见到这个用户时,怎么快速地知道他对每类内容的感兴趣程度?
· 假设我们有若干广告库存,怎么知道该给每个用户展示哪个广告,从而获得最大的点击收益?是每次都挑效果最好那个么?那么新广告如何才有出头之日?
· 我们的算法工程师又想出了新的模型,有没有比A/B test更快的方法知道它和旧模型相比谁更靠谱?
· 如果只是推荐已知的用户感兴趣的物品,如何才能科学地冒险给他推荐一些新鲜的物品?

Thompson sampling

解决MAB问题的算法称为bandit算法,Thompson sampling是其中的一种。
这里写图片描述
TS的具体实现可以是:
每个臂的产生收益的概率都分别服从一个bata分布Beta(win, lose);每一次用现有的beta分布生成随机数,选择产生随机数最高的臂;若该臂获得收益,则win+1,否则lose+1;循环迭代。

2. 具体描述

problem:

item-to-item recommendation

model:

ensemble learner,a collection of base recommendation algorithms

bandit arms are extended to be:

non-stationary and non-answering

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值