Gittins index for MAB Problem

最新推荐文章于 2020-10-12 20:58:06 发布

Forforth

最新推荐文章于 2020-10-12 20:58:06 发布

阅读量1.4k

点赞数

分类专栏： paper reading

本文链接：https://blog.csdn.net/Lyn_S/article/details/106480724

版权

Paper Reading:
On the Gittins Index for Multiarmed bandits
– By Richard Weber University of Cambridge

本文是 Gittins index 最简单也最 elegant 的proof, 这篇博客我们来看看Weber是怎么proof Gittins index的.

Multiarmed Bandit (MAB) Problem

MAB 问题我们就不在赘述了, 实际上就是一个 $n$ dimentional MDP, 即总共有 $n$ 个 arms/bandits, 每次只能拉一个. 被拉的arm的states按照一个已知的Markov Chain (MC) 来演化, 没被拉的arms全都freeze. 每次拉都会得到一个immediate reward.
States of the bandits: $x=\left\{x_1(t), x_2(t), ..., x_n(t)\right\}$
Actions: $a_1$ , $a_2$ , …, $a_n$ ( $a_i$ 对应"拉第 $i$ 个bandit")
目标是找到最优policy $\pi$ 最大化 expected total-discounted reward:
$V_\pi(x)=E_\pi\left[ \sum_{t=0}^{\infty} \beta^t R_{j_t}\left( x_{j_t} (t) \right) \left| \right.x(0)=x \right]$
$\pi^\star=\argmax_{\pi}V_\pi(x)$
简言之, $V_\pi(x)$ 是从任一状态 $x$ 开始, 遵循策略 $\pi$ 走出的所有轨迹的平均return (这里定义为accumulated discounted future rewards), 最优policy $\pi^\star$ 是所有policy中最大化平均return 的那个.

Gittins Index

上述MAB可以用传统 discounted-cost MDP theory来解 (e.g., value iteration), 但是算法复杂度随着M的增加而指数增加, 也就是 curse of dimensionality. 另一方面, Gittins index是一种线性复杂度的解法: 每次选择bandits时, 可以对每个bandits计算一个Gittins index, 然后选index最大的那个user即可. More formally, 在 $t$ 时刻选取bandit $j$ 是最优的 iff
$G_j\left(x_j(t) \right)=\max_{1\leq i\leq n}G_i\left(x_i(t) \right)$
$G_i$

最低0.47元/天解锁文章

Forforth

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
Gittins index for MAB Problem

Paper Reading:A Whittle Index Approach to Minimizing Functions of Ago of Information
复制链接

扫一扫

专栏目录