多臂强盗（multi-armed bandit）问题探究

最新推荐文章于 2024-07-05 18:34:10 发布

white_gl

最新推荐文章于 2024-07-05 18:34:10 发布

阅读量1w

点赞数 4

分类专栏： UCT 文章标签： UCT MCTS

UCT 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

转自：http://mlyixi.byethost32.com/blog/?p=155

04Oct 2014

多臂赌博机系列(1)

by mlyixi ⋅ Leave a Comment

假想一个风投他想着他的收益最大化,这时他总会面临一个两难: 何时去投资那些已经成功的公司,何时去投资那些还没有成功但具有很大潜力的公司.这里套用股市里的一句话:收益总是伴随着风险的. 一个成功的风投必须处理好这个勘探-开发两难(exploration and exploitation tradeoff): 勘探过多意味着不能获得较高的收益,而开发过多意味着可能错过更高回报的机会.

在现实生活和商业中我们都会面对这种两难,而且没有正确的答案教你怎么去做--可能的原因是我们对世界的认识不够清楚(世界太复杂,我们太年轻!!!). 但是在数学领域, 这个问题已经被研究过,被称为多臂赌博机问题(multi-armed bandit problem),也称为顺序资源分配问题(sequential resource allocation problem). 它被广泛应用于广告推荐系统,源路由和棋类游戏中.

描述

假设有个老虎机并排放在我们面前,我们首先给它们编号 ,每一轮,我们可以选择一个老虎机来按,同时记录老虎机给出的奖励. 假设各个老虎机不是完全相同的,经过多轮操作后,我们可以勘探出各个老虎机的部分统计信息,然后选择那个看起来奖励最高的老虎机. 在多臂赌博机中,我们把老虎机称为臂.

这里有两个问题:

奖励以什么方式产生

我们可以想见有很多种方式产生这种奖励
* 随机式(stochastic bandit): 臂的奖励服从某种固定的概率分布
* 对抗式(adversarial bandit): 赌场老板使坏,会动态调整臂的奖励,比如让你选的臂的奖励很低,但是其它未选的臂奖励变高.注意这里赌场老板不能也不会使全部臂的奖励变为0,因为这样会使我们无法得到奖励,这时我们体验到的是任何策略都是无差别的.
* 马尔可夫式(Markovian bandit): 臂奖励由马尔可夫链定义.

如何测量策略的好坏

简单的以总奖励作为测量策略好坏的标准是不切实际的. 所以我们定义遗憾(regret)作为策略好坏的指标,指的是我们可以达到的最理想总奖励与实际得到的总奖励.

随机式(stochastic bandit)

在本节中只讨论随机式多臂赌博机问题及UCB策略集,并假定各臂给出的奖励是归一化到之间的随机变量,其期望用表示. 在第t轮的奖励用表示.

同时, 和独立, 和独立.

我们把该问题数学化:

定义随机式多臂赌博机:
已知参数: 臂数 ,轮数
未知参数: 在[0,1]区间上的各臂分布
过程: 每轮(1)从中选择一个臂 . (2)该臂独立地给出服从的奖励

同时我们需要定义策略的好坏指标--累积遗憾:

定义: 给定一个策略和一个动作集 ,在时间后的累积遗憾是最佳臂的期望奖励与的期望奖励之差.

在上述随机变量中,我们总可以找到一个期望最大的臂,使得:

同时我们可以定义

其中表示一个从大到小排序的置换.

一个选择策略在T轮后获得的奖励定义为:

所以,策略的累积遗憾为:

其中为理想策略所获得的收益,该策略表示我们已知那个期望最大的臂并总选择那个臂.

所以一个好的策略是使

尽可能小.

UCB1算法

这里我们介绍一个最常见的bandit策略--UCB1算法,该算法的精神被认为是乐观地面对不确定性:我们首先猜测各臂可能给出的奖励,然后选择那个最高臂,如果实际的奖励较少,我们会尽快地降低对该臂的猜测,反之,我们就尽量多选择这个臂. 这里面的猜测,其实就是对各臂的奖励建立了一个指数,通过动态调整这个指数,我们最终将确定那个期望奖励最高的臂.