MAB算法之UCB1

帮助理解

在实现一个较好的算法时,我们需要探索(exploration)利用( exploitation)

  • exploration
    探索:就是不断搜索新的或不断更新自己得到的数据来得到一个更优的数据来实现自己的预期目标
  • exploitation
    利用:充分使用自己得到的一些数据,通过叠加、相减、各种信号处理、最优检测或估计之类的东西处理,来实现自己预期的目标

问题描述1

假设寝室到食堂总共有K条路,要选出一条路程最短的一条路。但是你唯一可记录的工具只有可以记录步数的手环(记录的也不一定准确),所以我们为了得到一个较为可靠的结果,就用到了UCB1[1]的策略。

算法流程

  1. 初始化: μ 1 , μ 2 , . . . , μ K \mu_1,\mu_2,...,\mu_K μ1,μ2,...,μK分别是第一次走路所记录下来的步数;
  2. 循环: u c b 1 j ucb1_j ucb1j = μ j ˉ
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值