Thompson sampling

Thompson sampling 认为当某项行为被执行的时候,所获得收益的概率符合某种概率密度函数。
一般使用 beta 函数作为 Thompson sampling 的概率密度函数。
做 Thompson sampling 的时候,对每一个行为,按照该行为的概率密度函数,进行符合该概率密度函数分布的概率进行采样。

经过一段时间的采样之后,该行为的概率密度函数趋于稳定,但仍有一定的几率采到比较大或者比较小的采样收益。
这种方法,一方面考虑到了不同行为,获得收益的概率不同,同时也给与了否定当前收益期望较大的行为,以及采取当前期望较小行为的几率。

--------------待续

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值