机器学习第四篇----MAB（多臂老虎机）一次失败的尝试

最新推荐文章于 2024-06-11 09:16:00 发布

walker.wu

最新推荐文章于 2024-06-11 09:16:00 发布

阅读量3k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/u012966380/article/details/86559423

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

最近在搞推荐，选型了了MAB，但是最终尝试失败

首先介绍一下，什么是MAB？
一个赌徒，要去摇老虎机，走进赌场一看，一排老虎机，外表一模一样，但是每个老虎机吐钱的概率可不一样，他不知道每个老虎机吐钱的概率分布是什么，那么每次该选择哪个老虎机可以做到最大化收益呢？这就是多臂赌博机问题（Multi-armed bandit problem, K-armed bandit problem, MAB）。
在这里插入图片描述
推荐系统和MAB：
推荐系统中一个难点之一就是冷启动，冷启动的场景：如何给新用户做个性化推荐。因为没有历史数据，无法预测出用户的喜好。这种场景是每个网站或者APP启动的时候遇到的问题。
这种问题就很适合用MAB算法来解决：
MAB算法中有几个关键元素：臂、回报、环境
臂：每次选择的候选项，如老虎机的摇臂
回报：就是选择一个臂之后得到的奖励，好比老虎机吐出来的金币
环境：就是决定每个臂不同的那些因素，统称为环境

对应到推荐系统中
臂：每次推荐要选择的候选池，可能是具体物品，可能是推荐策略，也可能是物品类别
回报：用户的回馈，喜欢则是正面回报，没有买账就是负面回报或零回报
环境：推荐系统当前面临的这个用户就是未知的环境

但是我们针对MAB的尝试失败了，总结了一下原因：
1.MAB属于探索的过程，在这期间推荐效果可能好，也可能差很多，这是算法本身决定的。
2.MAB的试用场景，应该是高频业务，低频的业务不适合
3.业务本身的波动要小，如果业务本身的波动很大，很难试用AMB优化出很好的效果。
4.回报率在我使用的业务中很难计算