- 博客(1)
- 收藏
- 关注
原创 bandit算法原理及Python实现
Bandit算法是在线学习的一种,一切通过数据收集而得到的概率预估任务,都能通过Bandit系列算法来进行在线优化。这里的“在线”,指的不是互联网意义上的线上,而是只算法模型参数根据观察数据不断演变。 以多臂老虎机问题为例,首先我们假设每个臂是否产生收益,其背后有一个概率分布,产生收益的概率为p 我们不断地试验,去估计出一个置信度较高的概率p的概率分布就能近似解决这个问题了。 怎么能估计概率p
2017-04-24 09:22:40 1168
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人