MAB多臂赌博机---汤普森采样算法

汤普森采样算法

原理

  1. 假设每个臂是否产生收益,决定于背后的一个概率分布,及产生收益的概率为p,每个臂对应的概率分布得出各自的随机数,最大的就是收益最高的
  2. 根据每次收益情况调整对应的概率分布

核心 (Beta)贝塔分布

贝塔分布: 是一种连续性概率密度分布,由形状参数(a,b)表示,一般用于伯努利事件成功概率的概率分布,定义域在(0,1)之间

伯努利试验:在同样的条件下重复地、相互独立地进行的一种随机试验 并且只有两种可能结果:发生或者不发生

image

分布特点:

对于不同的形状参数 a,b

  1. 分布很宽 a+b 很大
  2. 分布很窄 接近1 -> a/(a+b) 很大
  3. 分布很窄 接近0 -> a/(a+b) 很小

在推荐场景 a为候选项点击或购买次数 b为没有点击或购买的次数 用于解决推荐的冷启动和探索问题

python 实现
import pandas as pd
dataset=pd.read_excel("Ads_CTR_Optimisation.xlsx")
dataset.head()

image

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值