【强化学习】多臂赌博机问题(MAB)的UCB算法介绍

最新推荐文章于 2024-10-11 00:00:15 发布

weixin_30293079

最新推荐文章于 2024-10-11 00:00:15 发布

阅读量2.6k

点赞数

文章标签：人工智能 matlab 嵌入式

原文链接：http://www.cnblogs.com/Ryan0v0/p/11366578.html

版权

UCB算法

UCB在做EE(Exploit-Explore)的时候表现不错，但是一个不关心组织的上下文无关(context free)bandit算法，它只管埋头干活，根本不观察一下面对的都是些什么样的arm。

UCB算法要解决的问题是：

面对固定的K个item（广告或推荐物品），我们没有任何先验知识，每一个item的回报情况完全不知道，每一次试验要选择其中一个，如何在这个选择过程中最大化我们的回报？

UCB解决这个Multi-armed bandit问题的思路是：用置信区间。置信区间可以简单地理解为不确定性的程度，区间越宽，越不确定，反之亦反之。

每个item的回报均值都有个置信区间，随着试验次数增加，置信区间会变窄（逐渐确定了到底回报丰厚还是可怜）。

每次选择前，都根据已经试验的结果重新估计每个item的均值及置信区间。

选择置信区间上限最大的那个item。

“选择置信区间上界最大的那个item”这句话反映了几个意思：

如果item置信区间很宽（被选次数很少，还不确定），那么它会倾向于被多次选择，这个是算法冒风险的部分；
如果item置信区间很窄（备选次数很多，比较确定其好坏了），那么均值大的倾向于被多次选择，这个是算法保守稳妥的部分&#x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30293079

关注关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

多臂老虎机问题 (MultiArmed Bandit Problem) 原理与代码实例讲解

AI天才研究院

06-06

1057

多臂老虎机问题 (Multi-Armed Bandit Problem) 原理与代码实例讲解 1. 背景介绍 1.1 什么是多臂老虎机问题？多臂老虎机问题(Multi-Arm

RL之MAB：多臂老虎机Multi-Arm Bandit的简介、应用、经典案例之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

09-19

6334

RL之MAB：多臂老虎机Multi-Arm Bandit的简介、应用、经典案例之详细攻略目录多臂老虎机Multi-Arm Bandit的简介 1、微软亚洲研究院解释多臂老虎机—探索还是守成 2、MAB与RL的内在联系 3、多臂老虎机的重要进展 3.1、1933年最初老虎机模型—解决随机双盲实验的序列决策模型 3.2、Epsilon-greedy→老鼠找蛋糕的实验...

参与评论您还未登录，请先登录后发表或查看评论

UCB公式的理解

海晨威

10-25

2万+

UCB公式的理解在解决探索与利用平衡问题时，UCB1 策略是一个很有效的方法，而探索与利用平衡问题中最经典的一个问题就是多臂赌博机问题（Multi-Armed Bandit）。图来自[1] 问题假设：按下摇臂后的回报取值为 1 或 0，每个摇臂获得回报的概率服从不同的分布，但事先并不知道问题目标：按照某种策略来按压摇臂以获得最大的累计回报（咦，这不就是强化学习的目标嘛）在这个问题中，探索...

算法实习生学习之路--UCB算法

yw8355507的专栏

09-19

1万+

前言：来万物花开这家创业公司实习，也真是一波三折。先实习了三天，每天下午到公司工作到晚上。工作时间是每天下午到晚上9.30。结果每天上午没法用心干实验室的活了，下午在公司工作的时候，总是提心吊胆，手机震动一下就会立刻拿出来看看是不是老师找我了。这样的日子感觉没法持续下去，想找导师谈谈之前，就从实验室同学那儿知道了老师对我最近的出勤率太低很不高兴。想着还是找找导师谈一谈实习的问题

【理论背后的直觉】MAB多臂老虎机与UCB算法

最新发布

安如衫的刷怪之路

10-11

1086

在强化学习中，多臂赌博机问题（Stochastic Bandits）是经典的探索与利用（Exploration vs. Exploitation）权衡问题。本文将介绍多臂赌博机的基本概念，探讨$\varepsilon$-贪婪策略和上置信界算法（UCB）的理论与实践表现，并总结其核心要点。

多臂老虎机UCB1算法推导

tsq15的博客

06-12

3736

多臂老虎机UCB1算法推导多臂老虎机UCB1算法及其推导证明多臂老虎机问题定义UCB1算法介绍UCB1算法证明推导小结多臂老虎机UCB1算法及其推导证明 UCB1算法是多臂老虎机问题中很简单也很经典的算法。这里参考原始论文 “Finite-time Analysis of the Multiarmed Bandit Problem” 过一遍UCB1算法的推导过程。多臂老虎机问题定义对一个K臂老虎机，随机变量Xi,n,1≤i≤KX_{i,n}, 1 \leq i \leq KXi,n,1≤i≤K

多臂赌博机算法

qq_45719838的博客

11-24

172

多臂赌博机算法

MAB算法之UCB1

morejudge的博客

05-17

1444

UCB1算法帮助理解问题描述1算法流程FLowchart流程图参考文献帮助理解在实现一个较好的算法时，我们需要探索（exploration）与利用（ exploitation）： exploration 探索：就是不断搜索新的或不断更新自己得到的数据来得到一个更优的数据来实现自己的预期目标 exploitation 利用：充分使用自己得到的一些数据，通过叠加、相减、各种信号处理、最优检测或估计之类的东西处理，来实现自己预期的目标问题描述1 假设寝室到食堂总共有K条路，要选出一条路程最短的一条路。

UCB（Upper Confidence Bound）算法

Eric's Blog

11-03

8202

UCB（Upper Confidence Bound）算法在推荐系统中，通常量化一个物品的收益率（或者说点击率）是使用点击数/展示数，例如点击为10，展示数为8，则估计的点击率为80%，在展示数达到10000后，其表现ctr是否还能达到80%呢？显然是不可能的。而这就是统计学中的置信度问题，计算点击率的置信区间的方法也有很多，比如威尔逊置信空间 UCB算法步骤包括：首先对所有item的尝试一下，然后每次选择score值最大的那个： Input: N arms, number of rounds T &g

【科普】强化学习之多臂老虎机问题（bandit算法：softmax,random,UCB）

Sharing_CT的博客

12-08

9990

本博客上的文章分为两类：一类是科普性文章，以通俗易懂的语言风格介绍专业性的概念及其应用场景（公式极少或没有），适合入门阶段。另一类是专业性文章，在科普阶段上做出详细的专业性数学推导，深刻理解其概念的内涵，适合进阶。本篇目录什么是强化学习？什么是K-摇臂赌博机问题？什么是EE困境？常见的解决EE困境办法的方法以及它们之间的差异？ 1、什么是强化学习？近几年来，人工智能与大数据的概念...

【强化学习】在gym环境下，老虎机的算法总结

wongwongwong

02-03

2890

多臂老虎机问题(Multi-Armed Bandit Problem)是强化学习的经典问题。MAB实际上是一个台机器，在赌场玩的一种赌博游戏，你拉动手臂(杠杆)并得到一个支付(奖励)基于随机生成的概率分布。我们的目标是，随着时间序列，找出哪台机器可以得出最大的累计奖励，即最大化累计奖励实现步骤： 1.环境的部署与实现 pip3 install gym_bandits import gym import gym_bandits i...

UCB CS294 深度强化学习中文笔记（谢天）

02-11

UCB CS294 深度强化学习中文笔记（谢天） UCB CS294 深度强化学习中文笔记（谢天）

MATLAB强化学习_多臂赌机问题_softmax策略

01-18

MATLAB强化学习代码包，用于解决多臂赌机问题的softmax策略 "I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?"

多臂老虎机LUCB算法

10-16

人工智能机器学习的增强学习算法，用于多臂老虎机问题。

多臂赌博机问题中的Softmax算法和ε-greedy算法

chen的博客

11-24

194

则以ε的概率选择探索，以（1-ε）的概率选择利用，其中ε是一个固定的参数（通常很小，比如0.1）。在每一步中，ε-greedy算法以ε的概率随机选择一个摇臂进行探索，以（1-ε）的概率选择当前已知最佳的摇臂进行利用。这两种算法对于动作选择的方式有所不同，Softmax算法基于概率性的方式来进行选择，而ε-greedy算法以固定概率进行探索和利用的折中。Softmax算法更加灵活，能够根据温度参数调整探索和利用的平衡，而ε-greedy算法则是通过一个固定的概率来决定探索和利用的比例。

UCB算法升职记——LinUCB算法

LegenDavid's warehouse

05-02

1万+

UCB再回顾上回书说到，UCB这个小伙子在做EE(Exploit-Explore)的时候表现不错，只可惜啊，是一个不关心组织的上下文无关(context free)bandit算法，它只管埋头干活，根本不观察一下面对的都是些什么样的arm。进一步送UCB去深造之前，我们再把UCB算法要解决的问题描述一下：面对固定的K个item（广告或推荐物品），我们没有任何先验知识，每一个

MAB多臂赌博机---汤普森采样算法

技术札记

03-03

1100

汤普森采样算法原理假设每个臂是否产生收益，决定于背后的一个概率分布，及产生收益的概率为p，每个臂对应的概率分布得出各自的随机数，最大的就是收益最高的根据每次收益情况调整对应的概率分布核心 (Beta)贝塔分布贝塔分布: 是一种连续性概率密度分布，由形状参数(a,b)表示，一般用于伯努利事件成功概率的概率分布，定义域在(0,1)之间伯努利试验:在同样的条件下重复地、相互独立地进行的一种随机试验并且只有两种可能结果：发生或者不发生分布特点：对于不同的形状参数 a,b 分布很宽 a+b

UCB——上界置信算法

weixin_45662974的博客

10-06

1万+

目录一、多臂老虎机二、探索Exploration与利用Exploitation三、置信区间上界算法（the-upper-confidence-bound-algorithm）四、UCB的bound证明五、UCB仿真 [代码非原创，仅供参考学习](https://www.jianshu.com/p/3abeb6d4a1e5)总结一、多臂老虎机假设现在有如下的老虎机，每个老虎机都是单臂的，组合在一次就称为多臂老虎机。拉下老虎机的臂，就会按照概率得到一定的奖励，且每个老虎机的概率分布都是不同的。因此.

bandit算法（3）--UCB算法