机器学习第四篇----MAB(多臂老虎机)一次失败的尝试

最近在搞推荐,选型了了MAB,但是最终尝试失败

首先介绍一下,什么是MAB?
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
在这里插入图片描述
推荐系统和MAB:
推荐系统中一个难点之一就是冷启动,冷启动的场景:如何给新用户做个性化推荐。因为没有历史数据,无法预测出用户的喜好。这种场景是每个网站或者APP启动的时候遇到的问题。
这种问题就很适合用MAB算法来解决:
MAB算法中有几个关键元素:臂、回报、环境
臂:每次选择的候选项,如老虎机的摇臂
回报:就是选择一个臂之后得到的奖励,好比老虎机吐出来的金币
环境:就是决定每个臂不同的那些因素,统称为环境

对应到推荐系统中
臂:每次推荐要选择的候选池,可能是具体物品,可能是推荐策略,也可能是物品类别
回报:用户的回馈,喜欢则是正面回报,没有买账就是负面回报或零回报
环境:推荐系统当前面临的这个用户就是未知的环境

但是我们针对MAB的尝试失败了,总结了一下原因:
1.MAB属于探索的过程,在这期间推荐效果可能好,也可能差很多,这是算法本身决定的。
2.MAB的试用场景,应该是高频业务,低频的业务不适合
3.业务本身的波动要小,如果业务本身的波动很大,很难试用AMB优化出很好的效果。
4.回报率在我使用的业务中很难计算

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值