每天一个RL基础理论(10)—Exploration in Bandits

Nemo555

于 2021-12-19 03:02:15 发布

阅读量482

点赞数

分类专栏： Deep RL 文章标签：深度强化理论基础

本文链接：https://blog.csdn.net/weixin_40056577/article/details/121977299

版权

Deep RL 专栏收录该内容

27 篇文章 50 订阅

订阅专栏

CS6789-8&9 Linear Bandits

背景
一、Multi-Armed Bandit
二、Linear Bandits
三、LinUCB的定理与证明
总结

参考资料 CS6789 Slides

背景

前面介绍VI、LSVI、FQI等原理性算法的理论分析（算法有 $\epsilon$ -optimal策略的存在性、收敛速度、施加的假设、策略的性能以及样本复杂度），这些都属于value-based RL算法的范畴
这一系列算法是随着问题规模的复杂度（状态动作空间）逐渐增大而逐步改进的，
1. 经典的VI是在Tabular MDP且Known dynamics的问题setting下分析的
2. LSVI是在Large Scale MDP、finite horizon、隐含generative model得到的数据集假设下进行分析的，其中Large Scale MDP对Q函数做了linear function class的representation假设
3. FQI是在Large Scale MDP、infinite horizon、已知一数据集的假设下进行分析的，其中Large Scale MDP对Q函数做了general function class的representation假设
而接下来的Exploration类方法，与value-based最明显的区别是
1. 没有已知的数据集，没有generative mode的假设，需要自己去收集、探索组成学习用的数据集
2. 不像valued based那样，分析时默认了整个状态动作空间的reward都是已知，且deterministic的，因为generative model有能力在任意一个 $(s, a)$ 下返回 $r (s, a)$ ，但exploration不一样，关于reward是未知的，需要一个初始分布开始，看不到 $r (s, a)$ 在所有(s,a)的全貌
同样exploration类方法也随着问题规模复杂度的提升而扩充如下
1. Multi-armed bandit的MDP表示为 $\mathcal M=\{s_0,a_1,...,a_K,H=1,R\}$ ：只有一个状态 $s_0$ ，有 $K$ 维离散动作 $a_1,...,a_K)$ ，关于 $r(s_0,a_i),i\in [K]$ 是未知的，且 $r_i=r(s_0,a_i)$ 是stochastic的，是一个 $\nu_i$ 分布，其中 $\mu_i=\mathbb E_{r_i\sim \nu_i}[r_i]$
2. Linear bandit在MAB的基础上，扩充了动作空间为 $d$ 维连续 $a\in \mathbb R^d$ ，如果是连续动作仍然对当前状态下的每一个动作值都假设其reward function服从一个分布的话，那是很可怕的= =。因此Linear bandit假设 $\mu^\star a_{t}=\mathbb E[r(s_0,a_t)]=\mathbb E[r_t]$ (Linear体现在奖励函数的结构是相对于动作是linear function class的，因为只有一个状态)
3. Tabular MDP，即 $H\neq 1$ ，回到标准的MDP中去考虑exploration问题，与之前分析的value-based RL最不一样的是交互假设，exploration是 $\mu$ -reset交互假设
4. 下一步就是扩展从Tabular MDP到Linear MDP
5. 最后是Large Scale MDP

因为bandits相对来说，逻辑简单，细节复杂，因此下面以定义+定理+证明直接过细节部分

一、Multi-Armed Bandit

1.1 问题定义

$\mathcal M=\{s_0,a_1,...,a_K,H=1,R\}$
1. $s_0$ ：用户身份信息
2. $a_1,...,a_K$ ：推荐 $K$ 个广告， $a_i=1$ 推荐第 $i$ 个广告
3. $H = 1$ ：决策序列为1
4. $R$ ：奖励函数 $r (s, a)$ 是未知的，针对具体的用户 $s_0$ ，希望知道哪个 $r(s_0,a_i)$ 最高，这样就能推第 $i$ 个广告给该用户 $s_0$ ，reward在该问题中是点击的概率
5. 假设第 $i$ 个动作奖励分布 $\nu_i$ 的期望为 $\mu_i=\mathbb E_{r_i\sim \nu_i(s_0,a_i)}[r_i]$
问题描述
1. 存在一个unkown的 $\mu^\star=\max_{i\in [K]}\mu_i$
2. 允许T次尝试的情况下，在第t次尝试选择的动作变量命名为 $I_t$ ，该动作变量服从的分布为 $\nu_{I_t}$ ，于是执行该动作观察到的reward来自该分布 $r_t\sim \nu_{I_t}$ ，然后关于分布的期望信息为 $\mu_{I_t}=\mathbb E_{r\sim \nu_{I_t}}[r]$
3. 利用分布的期望信息来定义Regret如下，来衡量某个策略在允许T次探索与利用过程中的好坏：
  $\mu^\star-\sum_{t=0}^{T-1}\mu_{I_t}$
经典的解决方案——Upper Confidence bound
1. 对于 $t = 0, . . ., T - 1 :$
2. 选择第t时刻的动作为： $I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big)$ 其中 $N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i)$ 为t时刻之前选择了动作 $i$ 的次数，是一个关于t的变量， $\hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)}$ 为执行动作 $i$ 观察到的奖励 $r_\tau$ 的empirical mean

1.2 UCB的bound

1.2.1 定理基础

Martingale Difference Sequence
参考Wikipedia的Martingale Difference定义，对于一个完备的概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ ——样本空间、事件空间、概率测度，定义了一连串序列 $\{X_t,\mathcal F_t\}_{-\infty}^\infty$ ，称 ${X_t\}$ 是Martingale Difference，只要其满足 $\forall t$
1. $\mathbb E[X_t]< \infty$
2. $\mathbb E[X_t|\mathcal F_{t-1}]=0$

基于历史事件 $\mathcal F_{t-1}$ ，当前时刻 $X_t$ 的期望为0

Hoeffding-Azuma Inequality

区别于Hoeffding Inequality的地方在于Hoeffding-Azuma的样本是个由历史事件统计而维持的变量

只考虑一个特定的动作 $i\in[K]$
1. 随着 $t = 0, 1, . . ., T - 1$ 有一串随机变量定义为 $X_t=\text{I}(I_t=i)(r_t-\mu_i)$ ，其中 $r_t\sim \nu_i,\mu_i=\mathbb E_{r_i\sim \nu_i}[r_i],r\in[0,1]$
2. $I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big)$
3. $N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i)$
4. $\hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)}$
5. 易知 $|X_t|\leq 1,\{X_t\}$ 是Martingale Difference Sequence

$I_t$ 的选择基于 $\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big)$ ，其中 $N_t(i),\hat \mu_t(i)$ 都是基于 $0, 1, . ., t - 1$ 的 $X_1,...,X_{t-1}$ 而维持的历史事件相关的变量，统称 $\mathcal F_{t-1}$ . 因此 $\mathbb E[X_t|\mathcal F_{t-1}]$ 主要在变量 $r_t$ ，而 $r_t$ 的期望正是 $\mu_i$ ，因此 $\mathbb E[X_t|\mathcal F_{t-1}]=0$ ，是一个Martingale Difference Sequence

所以根据Hoeffding-Azuma Inequality有：
$\begin{aligned} |\sum_{\tau=0}^{t-1}X_\tau|&=|\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)(r_\tau-\mu_i)|\\ &=|\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)r_\tau-\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)\mu_i|\\ &=|N_t(i)\hat \mu_t(i)-N_t(i)\mu_i|\\ &\leq 2\sqrt{N_t(i)\ln(1/\delta)} \end{aligned}$

因此对于任意的 $i\in[K],t\in[T]$ ，由union bound得
$|\hat \mu_t(i)-\mu_i|\leq 2\sqrt{\frac{\ln (KT/\delta)}{N_t(i)}}$

1.2.2 UCB的证明

对于一个固定的动作 $i\in [K]$ 而言，根据定理基础有 $|\hat \mu_t(i)-\mu_i|\leq 2\sqrt{\frac{\ln (KT/\delta)}{N_t(i)}}$

意味着每一个动作 $i$ ，其奖励 $r(s_0,a_i)$ 所服从分布 $\nu_i$ 的真实期望 $\mu_i$ 被估计值 $\hat \mu_t(i)$ bound住了

考虑第t步的Regret即 $\begin{aligned} \mu^\star-\mu_{I_t}&\leq \hat \mu_{t}(I_t)+2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}-\mu_{I_t}\\ &\leq \hat \mu_{t}(I_t)+2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}-\Big(\hat \mu_{t}(I_t)-2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}\Big)\\ &=4\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}} \end{aligned}$
因此对总体regret有：
$\begin{aligned} \sum_{t=0}^{T-1}\mu^\star-\mu_{I_t}&\leq 4\sum_{t=1}^{T}\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}\\ &=4\sqrt{\ln (KT/\delta)} \sum_{t=1}^{T}\sqrt{\frac{1}{N_t(I_t)}}\text{ (2)}\\ &=4\sqrt{\ln (KT/\delta)} \sum_{i\in [K]}\sum_{n=1}^{N_{T}(i)}\sqrt{\frac{1}{n}}\text{ (3)}\\ &\leq 4\sqrt{\ln (KT/\delta)} \sum_{i\in [K]}2\sqrt{N_{T}(i)}\text{ (4)}\\ &= 4\sqrt{\ln (KT/\delta)}2 \sum_{i=1}^K\sqrt{N_{T}(i)}\\ &\leq 4\sqrt{\ln (KT/\delta)}2\sqrt{\underbrace{(1^2+1^2+\cdots1^2)}_K\sum_{i=1}^K N_T(i)}\\ &= 8\sqrt{\ln (KT/\delta)} \sqrt{KT} \end{aligned}$

第(2)到第(3)步： $\sum_{t=0}^{T-1}\sqrt{\frac{1}{N_t(I_t)}}$ 表示每个时间刻 $t$ 内，对每个可能动作 $i$ 即 $I_t=i$ 的次数的求和，它亦可以表示为对于每个动作 $i$ 而言，结束时的实际次数的求和
第(3)到第(4)步： $\sum_{n=1}^{N_T(i)}f'(n) =f(N_T(i))-f(1)\leq f(N_T(i))$ ，其中 $f'(x)=-x^{\frac{1}{2}},f(x)=2x^{\frac{1}{2}}$

二、Linear Bandits

2.1 扩充的问题定义

扩充的点：将第 $t$ 次尝试的动作变量 $I_t=i$ ，从离散的 $I_t=i,i\in[K]$ 扩充到连续的 $x_t$ ，考虑一个多维的连续动作变量 $x_t\in \mathcal X\in \mathbb R^d$
MAB的缺陷：上述说明了Regret的Bound大体上是 $O(\sqrt{\ln (KT/\delta)}\sqrt{KT})$ ，但K是离散动作取值的数量，连续的话是无限的，直接替换为连续空间为 $O(\sqrt{\ln (|\mathcal X|T/\delta)}\sqrt{|\mathcal X|T})$ ，不可接受。希望为 $O(\sqrt{\ln (|d|T/\delta)}\sqrt{|\mathcal d|T})$ ，只跟维度有关
问题描述：

对于第t次观测到的奖励变量 $r_t\in[-1,1]$ ，先给一个有界性
假设采用了连续动作变量 $x_t$ ，奖励变量 $r_t$ 服从分布的期望信息与动作变量 $x_t$ 有关即 $\mathbb E[r_t|x_t=x]=(\mu^\star)^\top x$ (线性结构的假设)
噪声noise $\eta_t=r_t-(\mu^\star)^\top x_t$
最优的动作值为 $x^\star=\argmax_{x\in \mathcal X}(\mu^\star)^\top x$
最优的期望奖励值 $(\mu^\star)^\top x^\star$
所以T次尝试整体的Regret为： $Regret_T=T(\mu^\star)^\top x^\star-\sum_{t=0}^{T-1}(\mu^\star)^\top x_t$

新增的疑惑：
$\mu^\star$ 怎么来？(需要估计)

2.2 Least Square对 $\mu^\star$ 进行估计

假设现在已经执行了t次动作，那么就有数据集 $\{x_\tau,r_\tau\}_{\tau=0}^{t-1}$ ，根据问题的论述，我们知道 $r_\tau$ 是由期望为 $\mu^\star x_\tau$ 的分布上采样而来的，下面用Ridge Regression对 $\mu^\star$ 进行估计，估计得到的参数记为 $\hat \mu_t$ $\hat \mu_t=\argmin_{\mu}\|\mu x_\tau-r_\tau\|_2^2+\lambda\|\mu\|_2^2$ 解析式可求得 $\hat \mu_t=\Big(\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top\Big)^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau=\Sigma_t^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau$
通过最小二乘法估计得到参数，有很好的理论性质。考虑参数空间，在估计点周围 $\hat \mu_t$ ，建立一个由参数 $\beta_t$ 控制的uncertainty region $Ball_t$ 如下：
$Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\}$

然后通过输入超参数 $\lambda,\beta_t$ ，来解决这个Linear Bandits的问题，对应的算法为Linear UCB。

2.3 LinUCB算法流程

输入 $\lambda,\beta_t$
对于 $t = 0, 1, . . ., T - 1$ ：
- 在第t步选择执行动作 $x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x$
- 观察到新的样本 $x_t,r_t$
- 更新 $Ball_{t+1}$

三、LinUCB的定理与证明

在说证明之前，先谈谈LinUCB的疑惑（证明两小节按如下两个问题展开）：

怎么设置 $\lambda,\beta_t$ ，才能保证 $Ball_t$ 覆盖了 $\mu^\star$ ? (公式表述： $\Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta$ )
如果 $Ball_t$ 覆盖了 $\mu^\star$ ，那么总体 $Regret_T$ 的复杂度是多少？

LinUCB的理论定理：

假设相关变量的有界性：噪声 $|\eta_t|\leq \sigma$ ，参数
$\|\mu^\star\|\leq W$ ，动作值 $\|x\|\leq B,x\in\mathbb R^d$ ，奖励函数的值域 $r_t=(\mu^\star)^\top x_t+\eta_t\in [-1,1]$
设置 $\lambda=\frac{\sigma^2}{W^2}$ ， $\beta_t=\sigma^2(2+4d\ln(1+\frac{tB^2W^2}{d})+8\ln(4/\delta))$
则有 $1-\delta$ 的概率，存在一个常数 $c$ 对于所有 $T > 0$ 有： $Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big)$

简单来看，Regret的上界为 $O(d\sqrt{T})$ ，虽然不是 $O(\sqrt{dT})$ ，但也不错，毕竟维度 $d$ 是有限的，与连续空间 $\mathcal X$ 的势 $|\mathcal X|$ 无关

但其实 $Regret_T$ 的下界仍为 $d\sqrt{T}$ ，意味着没有更优的算法使得其为 $O(\sqrt{dT})$

证明与论述需要用到的公式基础：（证明提供在3.2小节LinUCB的Regret Bound）

公式一：证明 $|(\mu-\hat \mu_t)^\top x|\leq \sqrt{\beta_tx^\top\Sigma_t^{-1}x}$
公式二：如果 $\mu^\star\in Ball_t$ ，则 $regret_t=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t\leq2\min(\sqrt{\beta_tx^\top\Sigma_t^{-1}x},1)\leq 2\sqrt{\beta_T}\min(\sqrt{x^\top\Sigma_t^{-1}x},1)$
公式三： $\det \Sigma_T=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+x^\top\Sigma_t^{-1}x)$
公式四：对于任意 $t < T$ 的序列 $x_0,...,x_{T-1},\|x_t\|_2\leq B$ ，则有 $\log \left(\operatorname{det} \Sigma_{T-1} / \operatorname{det} \Sigma_{0}\right)=\log \operatorname{det}\left(I+\frac{1}{\lambda} \sum_{t=0}^{T-1} x_{t} x_{t}^{\top}\right) \leq d \log \left(1+\frac{T B^{2}}{d \lambda}\right)$

3.1 关于 $Ball_t$ 的论述

目标：如何设置 $\beta_t$ ，能有 $1-\delta$ 的概率，使得 $\mu^\star\in Ball_t,\forall t$ ？即 $\Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta$

已知 $\Sigma_0=\lambda I,\Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top,Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\},r_\tau=(\mu^\star)^\top x_\tau+\eta_\tau$

考虑欧式空间上参数的估计值与参数最优值的 $\ell_2$ -norm：
$\begin{aligned} \|\hat \mu_t-\mu^\star\|_2&=\|\Sigma_t^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}\sum_{\tau=0}^{t-1}((\mu^\star)^\top x_\tau+\eta_\tau) x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}(\sum_{\tau=0}^{t-1} x_\tau x_\tau^\top)\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}(\Sigma_t-\lambda I)\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau-\mu^\star\|_2\\ &=\|-\lambda\Sigma_t^{-1}\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\text{ (1)}\\ \end{aligned}$
考虑 $Ball_t$ 空间上参数的估计值与参数最优值的距离：
$\begin{aligned} \sqrt{(\hat \mu_t-\mu^\star)^\top \Sigma_t(\hat \mu_t-\mu^\star)}&=\sqrt{(\Sigma_t^{1/2}(\hat \mu_t-\mu^\star))^\top (\Sigma_t^{1/2}(\hat \mu_t-\mu^\star))}\\ &=\|\Sigma_t^{1/2}(\hat \mu_t-\mu^\star)\|_2\\ 代入(1)&=\|-\lambda\Sigma_t^{-1/2}\mu^\star+\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ &\leq \|\lambda\Sigma_t^{-1/2}\mu^\star\|_2+\|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ &\leq \sqrt \lambda \|\mu^\star\|_2+\|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ \end{aligned}$

矩阵的norm $\|\Sigma_t\|_2=\|\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top\|_2\geq \lambda$ ，因此有 $\|\Sigma_t^{-1/2}\|_2\leq \frac{1}{\sqrt{\lambda}}$

为了放缩 $\|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2$ ，需要用到如下定理，其中 $\|x\|_{\Sigma_t^{-1}}^2=x^\top \Sigma_t^{-1} x$
所以有 $1-\delta_t$ 的概率有如下成立：(噪声有界性 $|\eta|\leq \sigma$ ，动作有界性 $\|x_t\|_2\leq B,x_t\in \mathbb R^d$ )
$\begin{aligned} \|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2&=\sqrt{(\sum_{\tau=0}^{t-1}\eta_\tau x_\tau)^\top \Sigma_t^{-1}(\sum_{\tau=0}^{t-1}\eta_\tau x_\tau)}\\ &\leq \sqrt{\sigma^2 \ln(\frac{\det(\Sigma_t) \det (\Sigma_0)^{-1}}{\delta_t^2})}\\ &\leq\sqrt{2\sigma^2\ln(\det(\Sigma_t) \det (\Sigma_0)^{-1})-2\sigma^2\ln\delta_t}\\ (公式四)&\leq \sqrt{2\sigma^2d \ln (1+\frac{T B^{2}}{d \lambda})-2\sigma^2\ln\delta_t} \end{aligned}$
如何设置 $\delta_t$ ，能保证至少有 $1-\delta$ 的概率有 $\Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta$ ？令 $\delta_t=\frac{6\delta}{\pi ^2t^2}$
$\begin{aligned} 1-\Pr(\mu^\star\in Ball_t,\forall t)&=\Pr(\exists t,\mu^\star\notin Ball_t)\\ &\leq \sum_{t=1}^{\infty}\Pr(\mu^\star \notin Ball_t)\\ &=\sum_{t=1}^\infty \frac{6\delta}{ \pi^2t^2} < \delta \end{aligned}$

易知 $\sum_{t=1}^\infty 1/t^2=\pi^2/6$ ，利用无穷级数的知识

所以最终有： $\delta_t=\frac{6\delta}{\pi ^2t^2}$
$\sqrt{(\hat \mu_t-\mu^\star)^\top \Sigma_t(\hat \mu_t-\mu^\star)} \leq \sqrt \lambda \|\mu^\star\|_2+\sqrt{2\sigma^2d \ln (1+\frac{T B^{2}}{d \lambda})-2\sigma^2\ln\delta_t}= \sqrt{\beta_t}\\ 解得：\beta_t=\sigma^2(2+4d\ln(1+\frac{tB^2W^2}{d})+8\ln(4/\delta))$
当 $t = 0$ 时，确保 $\Pr(\mu^\star \in Ball_0)$ ，可得 $\lambda=\frac{\sigma^2}{W^2}$
这样设置 $\lambda,\beta_t$ 可以确保 $\Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta$

3.2 关于LinUCB的Regret Bound

目标：Bound住 $Regret_T=\sum_{t=0}^{T-1}Regret_t=\sum_{t=0}^{T-1}(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t$
分析： $Regret_T\leq \sqrt{T \sum_{t=0}^{T-1}Regret_t^2}$ ，因此关注 $\sum_{t=0}^{T-1}Regret_t^2$
已知：最优参数 $\mu^\star\in Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\}$ ，协方差矩阵 $\Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_{\tau}x_\tau^\top$

3.2.1 公式一：宽度 $w_t$

如果 $\mu\in Ball_t$ ，那么对于动作空间 $\mathcal X$ 的点 $x$ ，有 $|(\mu-\hat \mu_t)^\top x|\leq \sqrt{\beta_tx^\top\Sigma_t^{-1}x}$ $\begin{aligned} |(\mu-\hat \mu_t)^\top x|&=|(\mu-\hat \mu_t)^\top \Sigma_t^{1/2}\Sigma_t^{-1/2} x|\\ &=|(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top \Sigma_t^{-1/2} x|\\ &\leq \|(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top\|_2\|\Sigma_t^{-1/2} x\|_2\\ &= \sqrt{(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top\Sigma_t^{1/2}(\mu-\hat \mu_t)}\sqrt{(\Sigma_t^{-1/2} x)^\top \Sigma_t^{-1/2} x}\\ &=\sqrt{(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)}\sqrt{x^\top \Sigma^{-1}_tx}\\ &\leq \sqrt {\beta_t x^\top \Sigma^{-1}_tx}\\ &=\sqrt{\beta_t}w_t \end{aligned}$

简记 $w_t=\sqrt{x_t^\top \Sigma_t^{-1}x_t}$

$w_t$ 可理解成数据 $x_t$ normalized后的宽度， $x_t^\top\Sigma_t^{-1}x_t=\Sigma_t^{-1/2}x_t^\top \Sigma^{-1/2}x_t=<\Sigma^{-1/2}x_t,\Sigma^{-1/2}x_t>=\|\Sigma^{-1/2}x_t\|_2^2=w_t^2$ 。根据现有数据估计的协方差，对已有数据 $x_t$ 进行normalized后所对应的宽度

3.2.2 公式二：分析 $regret_t$

如果 $\mu^\star\in Ball_t$ ，那么有
$\begin{aligned} regret_t=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t&\leq2\min(\sqrt{\beta_tx^\top\Sigma_t^{-1}x},1)\\ &\leq 2\sqrt{\beta_T}\min(\sqrt{x^\top\Sigma_t^{-1}x},1) \end{aligned}$ 因为LinUCB中动作的选择为 $x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x$ ，那么 $Ball_t$ 中必存在一个 $\tilde \mu_t$ 使得 $\tilde \mu_t x_t\geq (\mu^\star)^\top x^\star$ ，所以
$\begin{aligned} regret_t&=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t\\ &\leq (\tilde \mu)^\top x_t-(\mu^\star)^\top x_t\\ &=(\tilde \mu-\hat \mu_t)^\top x_t +(\hat \mu_t-\mu^\star)^\top x_t\\ (公式一)&\leq2\sqrt{\beta_t}w_t\\ &=2\min(\sqrt{\beta_t}w_t,1)\\ &\leq 2\sqrt{\beta_T}\min(w_t,1) \end{aligned}$

因为 $r_t\in [-1,1],r_\tau=\mu^\star x_\tau+\eta_\tau$ 所以有 $|\mu^\star x_\tau|\leq1$ ，从而 $regret_t\leq 2$ 。所以如果 $\sqrt{\beta_t}w_t$ 大于1的时候，没有意义；由 $\beta_t$ 的设置可知它是单调递增的。

关注目标 $\sum_{t=0}^{T-1}Regret_t^2\leq4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)\leq 8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2)$ ，从而需要知道如何bound住 $\sum_{t=0}^{T-1} \ln(1+w_t^2)$ ，这时候需要求助公式三

在 $0\leq w_t\leq1$ ，有 $w_t/2\leq \ln(1+w_t^2)$ ，可求导证明

3.2.3 公式三：协反差矩阵的定义

公式三：
$\det \Sigma_T=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+x^\top\Sigma_t^{-1}x)=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+w_t^2)$
这里协方差的定义为：
$\Sigma_0=\lambda_0I,\Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top,\Sigma_{t+1}=\Sigma_t+x_{t}x_t^\top$
且有宽度 $w_t=\sqrt{x_t^\top \Sigma_t^{-1}x_t}$

下面递归关系可直接证明公式三：
$\begin{aligned} \det\Sigma_{t+1}&=\det(\Sigma_t+x_{t}x_t^\top)\\ &=\det(\Sigma_t^{1/2}(I+\Sigma^{-1/2}x_tx_t^\top\Sigma^{-1/2})\Sigma_t^{1/2})\\ &=\det \Sigma_t \det (I+\Sigma^{-1/2}x_tx_t^\top\Sigma^{-1/2})\\ &=\det \Sigma_t \det (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top)\\ &=(1+w_t^2)\det \Sigma_t \text{ （主要解释这一步）}\\ \end{aligned}$

因为 $\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top$ 是个秩(rank)为1的矩阵，且 $w_t^2=x_t^\top \Sigma_t^{-1}x_t=(\Sigma^{-1/2}x_t)^\top(\Sigma^{-1/2}x_t)$ ，所以有：

$\begin{aligned} (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top) \Sigma^{-1/2}x_t&=\Sigma^{-1/2}x_t+w_t^2\Sigma^{-1/2}x_t\\ &=(1+w_t^2)\Sigma^{-1/2}x_t \end{aligned}$ 因此 $1+w_t^2)$ 为矩阵 $(I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top)$ 的特征值，且其它特征值为1，所以 $\det (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top)=(1+w_t^2)$

利用公式三有 $\sum_{t=0}^{T-1}Regret_t^2\leq4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)\leq 8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2)=8\beta_T\ln\frac{\det \Sigma_{T-1}}{\det\Sigma_0}$

3.2.4 公式四：协反差矩阵特征值、行列式的关系

对于任意 $t < T$ 的序列 $x_0,...,x_{T-1},\|x_t\|_2\leq B$ ，则有 $\ln \left(\operatorname{det} \Sigma_{T-1} / \operatorname{det} \Sigma_{0}\right)=\ln \operatorname{det}\left(I+\frac{1}{\lambda} \sum_{t=0}^{T-1} x_{t} x_{t}^{\top}\right) \leq d \ln \left(1+\frac{T B^{2}}{d \lambda}\right)$

记得 $x_t\in \mathbb R^d$ ，令矩阵 $\sum_{t=0}^{T-1} x_{t} x_{t}^{\top}$ 的特征值为 $\sigma_1,...,\sigma_d$ ，因此有
$\sum_{i=1}^d\sigma_i=\text{trace}[\sum_{t=0}^{T-1} x_{t} x_{t}^{\top}]=\sum_{t=0}^{T-1} x_{t}^{\top}x_{t}\leq TB^2$

最后一步的不等式主要套determinant的运算和算术-几何均值不等式
$\begin{aligned} \ln\det (I+\frac{1}{\lambda}\sum_{t=0}^{T-1}x_tx_t^\top)&=\ln \Big(\prod_{i=1}^d(1+\sigma_i/\lambda)\Big)\\ &=d\ln \Big(\prod_{i=1}^d(1+\sigma_i/\lambda)\Big)^{1/d}\\ &\leq d\ln \Big(\frac{1}{d}\sum_{i=1}^d(1+\frac{\sigma_i}{\lambda})\Big)\\ &=d\ln\Big(1+\frac{\sum_{i=1}^d \sigma_i}{d\lambda}\Big)\\ &\leq d\ln\Big(1+\frac{TB^2}{d\lambda}\Big) \end{aligned}$

利用公式四完成最后一步放缩，整体有
$\begin{aligned} Regret_T&\leq \sqrt{T \sum_{t=0}^{T-1}Regret_t^2}\\ &\leq\sqrt{T\times4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)}\\ &\leq \sqrt{T\times8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2)=8\beta_T\ln\frac{\det \Sigma_{T-1}}{\det\Sigma_0}}\\ &\leq\sqrt{T\times 8d\beta_T \ln\Big(1+\frac{TB^2}{d\lambda}\Big)} \end{aligned}$

由 $\beta_T=\sigma^2(2+4d\ln(1+\frac{TB^2W^2}{d})+8\ln(4/\delta))$ 可得最终的Regret Bound，有 $1-\delta$ 的概率，存在一个常数 $c$ 对于所有 $T > 0$ 有： $Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big)$

总结

现在问题的规模是相对比较小的，其中Multi-armed Bandit可由该MDP表述 $\mathcal M=\{s_0,a_1,...,a_K,H=1,R\}$ ，Linear Bandit则为 $\mathcal M=\{s_0,x_t,H=1,R\}$
与valued-based中generative model的假设不同点仅仅在于奖励函数 $R$ 是未知的，只能通过与环境交互观测到奖励，而不能在任意的 $(s, a)$ 直接拿到 $r (s, a)$ ，因此需要探索与利用的策略，与环境进行交互
评估探索与利用策略的指标是Regret，目的是在有限交互次数下 $t = 0, . . ., T - 1$ 使得总Regret最小，其中MAB的 $Regret_T=T\mu^\star-\sum_{t=0}^{T-1}\mu_{I_t}$ ，Linear Bandit的 $Regret_T=T(\mu^\star)^\top x^\star-\sum_{t=0}^{T-1}(\mu^\star)^\top x_t$
MAB对应的经典算法UCB如下：
1. 对于 $t = 0, . . ., T - 1 :$
2. 选择第t时刻的动作为： $I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big)$ 其中 $N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i)$ 为t时刻之前选择了动作 $i$ 的次数，是一个关于t的变量， $\hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)}$ 为执行动作 $i$ 观察到的奖励 $r_\tau$ 的empirical mean
3. 理论上界为 $Regret_T\leq8\sqrt{\ln (KT/\delta)} \sqrt{KT}$
Linear Bandit对应的算法LinUCB如下：
1. 输入 $\lambda,\beta_t$
2. 对于 $t = 0, 1, . . ., T - 1$ ：
  - 在第t步选择执行动作 $x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x$
  - 观察到新的样本 $x_t,r_t$
  - 更新 $Ball_{t+1}$
3. 理论上界为 $Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big)$
这还仅仅在同一状态 $s_0$ 下做的动作 $a_0$ (无论离散or连续)，如果交互的动作 $a_0$ 会改变当前状态 $s_0$ ，会发生转移 $P(s_1|s_0,a_0)$ ，那又如何分析呢？

Nemo555

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
每天一个RL基础理论(10)—Exploration in Bandits

在最简易的问题规模下，经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫
复制链接

扫一扫