多臂老虎机问题(置信区间算法笔记

UCB

老虎机奖惩机制

简单商业案例:
给用户定点投放广告,获取最佳投放策略
ad =10
consumer =10000

  • 获取用户反馈信息
    Ad 1,Ad 2,Ad 3,Ad 4,Ad 5,Ad 6,Ad 7,Ad 8,Ad 9,Ad 10
    consumer1 1,0,0,0,1,0,0,0,1,0
    consumer2 0,0,0,0,0,0,0,0,1,0
    consumer3 0,0,0,0,0,0,0,0,0,0
    consumer4 0,1,0,0,0,0,0,1,0,0
    consumer5 0,0,0,0,0,0,0,0,0,0
    consumer6 1,1,0,0,0,0,0,0,0,0
    consumer7 0,0,0,1,0,0,0,0,0,0
    consumer8 1,1,0,0,1,0,0,0,0,0
    .
    .
    .
# Importing the dataset
导入数据集
# Implementing UCB

构造关键:
average_reward //每个广告的平均价值
delta_i //伯努利函数
**upper_bound//置信区间上界

for n in range(0, N):
    ad = 0
    max_upper_bound = 0
    for i in range(0, d):
        if (numbers_of_selections[i] > 0):
            average_reward = sums_of_rewards[i] / numbers_of_selections[i]
            delta_i
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值