推荐之冷启动算法

针对新用户无历史行为记录的问题,本文介绍了冷启动算法中的EE问题和Bandit策略,特别是Thompson Sampling算法。通过探索与利用用户兴趣,调整Beta分布参数以动态优化推荐,达到留住客户的目的。
摘要由CSDN通过智能技术生成

目的:当一个新用户进来的时候,我们没有他的历史行为记录,就需要一个策略来快速探索用户的兴趣点以便留住客户。

EE问题:

EE问题又叫exploit-explore问题。Exploite就是对用户比较确定的兴趣,推荐响应的内容来吸引用户,Explore就是探索用户新的兴趣点,可以长期留住客户。

Bandit算法:

用分类或者topic来表示用户兴趣,我们可以通过几次试验,来获得用户对每个类别的感兴趣概率。如果用户对推荐的列表表示感兴趣,则获得收益,反之,则获得损失。如此经历“选择-观察-更新-选择”的循环,理论上就可以学习到用户真正感兴趣的类别。

  1. Thompson Sampling算法

假设用户对每个类别感兴趣的概率符合beta(wins, lose)分布,每次推荐之前,对于每一个类别,根据beta分布产生一个随机数b,选择随机数中最大的一个类别推荐给用户,然后,有收益则该类别的wins加一,反之lose加一。

Beta分布:

Beta(a,b)分布是一个定义在[0,1]区间上的连续概率分布族,因此Beta分布可以描述0~1区间内的形状(事件),为某件事或者成功的概率建模。

Beta分布有两个参数a和b,这两个参数决定了分布的形状。

  • 均值=a/(a+b),均值越大,概率密布分布的中心越靠近1,依据此概率分布产生的随机数都靠近1,反之则靠近0.
  • 方差=ab/((a+b)^2(a+b+1)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值