Bandit Algorithm教材学习笔记

最新推荐文章于 2024-11-12 21:05:38 发布

jsjxysy

最新推荐文章于 2024-11-12 21:05:38 发布

阅读量1.6k

点赞数 6

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_41815611/article/details/113450065

版权

本文详细介绍了Adversarial Bandits与Stochastic Bandits的理论和算法，包括Exp3与Exp3-IX算法及其regret分析。在Adversarial Bandits中，重点讨论了Exp3算法及其在不同证明下的regret上界，通过放缩证明了regret不超过2nklog(k)。在Stochastic Linear Bandits部分，提到了LinUCB算法，分析了其置信区间构建与regret分析。此外，文章还涵盖了Contextual Bandits，解释了上下文信息如何影响决策，并引入了专家建议的Exp4算法。最后，文章探讨了稀疏线性Bandits的SETC算法和在线线性预测，以及Stochastic Linear Bandits的下界问题。

摘要由CSDN通过智能技术生成

文章目录

参考资料
1 Part 3 Adversarial Bandits with Finitely Many Arms
2 Part 5 Contextual and Linear Bandits

参考资料

https://banditalgs.com/2016/08/01/table-of-contents/

https://tor-lattimore.com/downloads/talks/2018/aaai/finite-armed-bandits.pdf

教材的官网讲解
https://www.bilibili.com/read/cv6567364/
https://www.bilibili.com/video/BV1ki4y1x7cE
滴滴推荐系统的讲座，讲到了MBA和Contextual Bandits
https://www.cnblogs.com/kuliuheng/p/13808346.html
$U C B$ 的讲解

1 Part 3 Adversarial Bandits with Finitely Many Arms

参考资料

https://banditalgs.com/2016/10/01/adversarial-bandits

1.1 adversarial bandit基本内容

和stochastic bandit相比，adversarial bandit的主要区别主要在于 $r e w a r d$ 是如何生成的，stochastic的 $r e w a r d$ 是根据一个确定的分布（如高斯）生成的；adversarial的 $r e w a r d$ 是由环境 $\nu = (x_1,\dots,x_n)\in [0,1]^{Kn}$ 给出，相当于adversary从一个表中给出 $r e w a r d$ 。

stochastic的 $U C B$ 算法每一轮选择的arm是确定的，即当置信区间上界（UCB）最高的那一个；而adversarial的 $E x p 3$ 算法选择arm是不确定的，每一轮会生成一个关于 $k$ 个arm的概率分布 $P_{t1},P_{t2},...P_{tk}$ ，由概率分布来确定本轮选择的arm。

1.2 Exp3算法及其regret分析

在这里插入图片描述

其中估计值 $\hat X_{ti} = 1- \frac{\mathbb{I}{\{A_t=i}\}}{P_{ti}}\,(1-X_t)\,$

每一轮根据估计值，计算每个arm的概率，根据概率分布去随机选择arm，并不是像 $U C B$ 那样选择得分最高的那个arm，因此每轮 $r e w a r d$ 就是 $\mathbb{E}_{t-1}[X_t]=\sum_{i=1}^kP_{ti}x_{ti}$

希望 $r e g r e t$ 的期望比较小，是 $n$ 的sublinear，达到 $o (n)$ ，这样 $\lim_{n\rightarrow +\infty}\frac{R_n}{n}=0$

1.2.1 证明： $R(\pi,x) \leq 2 \sqrt{nklog(k)}$

定义 $R_{n,i}$ ，就是把最优arm换成了 $i$ ，来计算 $r e g r e t$
$R_{n,i} = \sum_{t=1}^n x_{ti} – \mathbb{E}\left[{ \sum_{t=1}^n X_t }\right]=\mathbb{E}\left[{ \hat S_{ni} } \right]-\mathbb{E}\left[\sum_{t=1}^n\sum_{i=1}^k P_{ti} \hat X_{ti} \right]=\mathbb{E}\left[ \hat S_{ni}- \hat S_{n} \right]$ $\\\hat S_{ni}=\sum_{t} \hat X_{ti} \\\mathbb{E}\left[{ \hat S_{ni} }\right] = \sum_{t=1}^n x_{ti} \\ \hat S_n = \sum_{t,i} P_{ti} \hat X_{ti}$ 根据 $P_{ti}$ 的格式带着 $e x p$ ，仿照其分母，定义
$W_t = \sum_{j=1}^k \exp\left(\eta\hat S_{tj}\right)$

$\frac{W_t}{W_{t-1}} = \sum_j \frac{\exp(\eta \hat S_{t-1,j} )}{W_{t-1}} \exp(\eta \hat X_{tj} ) = \sum_j P_{tj} \exp(\eta \hat X_{tj} )\,\\ \le 1 + \eta \sum_j P_{tj} \hat X_{tj} + \eta^2 \sum_j P_{tj} \hat X_{tj}^2 \\\le \exp( \eta \sum_j P_{tj} \hat X_{tj} + \eta^2 \sum_j P_{tj} \hat X_{tj}^2 )\,$

利用了 $\exp(x) \le 1 + x + x^2$ ， $\le exp(x)$ ，满足 $\hat x_{tj} \le 1$

在这里，使用另外一种放缩，可以得到更好的 $R(\pi,x) \leq \sqrt{2nklog(k)}$ ，在后面讲

对 $\exp(\eta \hat S_{ni} )$ 放缩同时将上面代入，有
$\exp(\eta \hat S_{ni} ) \le \sum_{j} \exp(\eta(\hat S_{nj})) = W_n = W_0 \frac{W_1}{W_0} \dots \frac{W_n}{W_{n-1}}\,\\ \le k\exp( \eta \sum_j P_{tj} \hat X_{tj} + \eta^2 \sum_j P_{tj} \hat X_{tj}^2 )\,$ 得到
$\hat S_{ni} – \hat S_n \le \frac{\log(K)}{\eta} + \eta \sum_{t,j} P_{tj} \hat X_{tj}^2$ 其中 $y_{tj} = 1-x_{tj}$ ， $Y_t=1-X_t$ ，拆开平方

在这里插入图片描述

令 $\eta = \sqrt{\log(K)/(nk)}$ 时，得到结论
$R_n\le R_{ni} \le \frac{\log(K)}{\eta} + \eta n k=2\sqrt{nklog(k)}$

1.2.2 证明： $R(\pi,x) \leq \sqrt{2nklog(k)}$

放缩的时候改变一下策略，应用 $exp(x)\le 1+x+\frac{x^2}{2}$ ，满足 $\hat X_{tj}-1)\le 0$ ，以及 $\le exp(x)$
$\exp(\eta \hat X_{tj} ) = \exp(\eta) \exp( \eta (\hat X_{tj}-1) ) \le \exp(\eta) \left\{1+ \eta (\hat X_{tj}-1) + \frac{\eta^2}{2} (\hat X_{tj}-1)^2\right\}$ 由 $\sum_j P_{tj}=1$
$\frac{W_t}{W_{t-1}}=\sum_j P_{tj} \exp(\eta \hat X_{tj} ) \le exp(\eta)\left[1-\eta +\sum_j P_{tj}\left(\eta \hat X_{tj} + \frac{\eta^2}{2} (\hat X_{tj}-1)^2\right)\right] \\$ $\exp\left( \eta \sum_j P_{tj} \hat X_{tj} + \frac{\eta^2}{2} \sum_j P_{tj}(\hat X_{tj}-1)^2\right)\,$
令 $\hat Y_{tj} = 1-\hat X_{tj} = \frac{A_{tj}}{P_{tj}} y_{tj}$ ，
$P_{tj} (\hat X_{tj}-1)^2 = P_{tj} \hat Y_{tj}\hat Y_{tj} = A_{tj} y_{tj}\hat Y_{tj}\le \hat Y_{tj} 、$
因此
$\frac{W_t}{W_{t-1}} \le %\exp(\eta) \sum_j P_{tj} \left(1+ \eta (\hat X_{tj}-1) + \frac{\eta^2}{2} (\hat X_{tj}-1)^2\right) \ =\exp\left( \eta \sum_j P_{tj} \hat X_{tj} + \frac{\eta^2}{2}\sum_j \hat Y_{tj} \right)$ 和之前一样，将 $\exp(\eta \hat S_{ni} )$ 的放缩代入，有
$\hat S_{ni} – \hat S_n \le \frac{\log(K)}{\eta} + \frac{\eta}{2} \sum_{t,j} \hat Y_{tj}$ 由 $\mathbb{E}( x)=\mathbb{E}(\mathbb{E_{t-1}}x)$
$\mathbb{E}\left(\sum_j \hat Y_{tj}\right)=\mathbb{E}\left(\sum_j \mathbb{E_{t-1}}\hat Y_{tj}\right)=\mathbb{E}\left(\sum_j y_{tj}\right)\le nk$
令 $\eta = \sqrt{2log(K)/(nk)}$ 时，得到结论
$R_n\le R_{ni} \le \frac{\log(K)}{\eta} + \frac{\eta n k}{2}=\sqrt{2nklog(k)}$

1.2.3 两种证明的比较

比较两个不同的结果，区别就是在放缩 $\frac{W_t}{W_{t-1}}=\sum_j P_{tj} \exp(\eta \hat X_{tj} )$ 的 $\exp(\eta \hat X_{tj} )$ 部分采用了不同的不等式，最终的差别结果是：
$\hat S_{ni} – \hat S_n \le \frac{\log(K)}{\eta} + \eta \sum_{t,j} P_{tj} \hat X_{tj}^2$