每天一个RL基础理论(10)—Exploration in Bandits


参考资料 CS6789 Slides

背景

  • 前面介绍VI、LSVI、FQI等原理性算法的理论分析(算法有 ϵ \epsilon ϵ-optimal策略的存在性、收敛速度、施加的假设、策略的性能以及样本复杂度),这些都属于value-based RL算法的范畴
  • 这一系列算法是随着问题规模的复杂度(状态动作空间)逐渐增大而逐步改进的,
    1. 经典的VI是在Tabular MDP且Known dynamics的问题setting下分析的
    2. LSVI是在Large Scale MDP、finite horizon、隐含generative model得到的数据集假设下进行分析的,其中Large Scale MDP对Q函数做了linear function class的representation假设
    3. FQI是在Large Scale MDP、infinite horizon、已知一数据集的假设下进行分析的,其中Large Scale MDP对Q函数做了general function class的representation假设
  • 而接下来的Exploration类方法,与value-based最明显的区别是
    1. 没有已知的数据集,没有generative mode的假设,需要自己去收集、探索组成学习用的数据集
    2. 不像valued based那样,分析时默认了整个状态动作空间的reward都是已知,且deterministic的,因为generative model有能力在任意一个 ( s , a ) (s,a) (s,a)下返回 r ( s , a ) r(s,a) r(s,a),但exploration不一样,关于reward是未知的,需要一个初始分布开始,看不到 r ( s , a ) r(s,a) r(s,a)在所有(s,a)的全貌
  • 同样exploration类方法也随着问题规模复杂度的提升而扩充如下
    1. Multi-armed bandit的MDP表示为 M = { s 0 , a 1 , . . . , a K , H = 1 , R } \mathcal M=\{s_0,a_1,...,a_K,H=1,R\} M={s0,a1,...,aK,H=1,R}:只有一个状态 s 0 s_0 s0,有 K K K维离散动作 ( a 1 , . . . , a K ) (a_1,...,a_K) (a1,...,aK),关于 r ( s 0 , a i ) , i ∈ [ K ] r(s_0,a_i),i\in [K] r(s0,ai),i[K]是未知的,且 r i = r ( s 0 , a i ) r_i=r(s_0,a_i) ri=r(s0,ai)是stochastic的,是一个 ν i \nu_i νi分布,其中 μ i = E r i ∼ ν i [ r i ] \mu_i=\mathbb E_{r_i\sim \nu_i}[r_i] μi=Eriνi[ri]
    2. Linear bandit在MAB的基础上,扩充了动作空间为 d d d维连续 a ∈ R d a\in \mathbb R^d aRd,如果是连续动作仍然对当前状态下的每一个动作值都假设其reward function服从一个分布的话,那是很可怕的= =。因此Linear bandit假设 μ ⋆ a t = E [ r ( s 0 , a t ) ] = E [ r t ] \mu^\star a_{t}=\mathbb E[r(s_0,a_t)]=\mathbb E[r_t] μat=E[r(s0,at)]=E[rt] (Linear体现在奖励函数的结构是相对于动作是linear function class的,因为只有一个状态)
    3. Tabular MDP,即 H ≠ 1 H\neq 1 H=1,回到标准的MDP中去考虑exploration问题,与之前分析的value-based RL最不一样的是交互假设,exploration是 μ \mu μ-reset交互假设
    4. 下一步就是扩展从Tabular MDP到Linear MDP
    5. 最后是Large Scale MDP

因为bandits相对来说,逻辑简单,细节复杂,因此下面以定义+定理+证明直接过细节部分

一、Multi-Armed Bandit

1.1 问题定义

  • M = { s 0 , a 1 , . . . , a K , H = 1 , R } \mathcal M=\{s_0,a_1,...,a_K,H=1,R\} M={s0,a1,...,aK,H=1,R}
    1. s 0 s_0 s0:用户身份信息
    2. a 1 , . . . , a K a_1,...,a_K a1,...,aK:推荐 K K K个广告, a i = 1 a_i=1 ai=1推荐第 i i i个广告
    3. H = 1 H=1 H=1:决策序列为1
    4. R R R:奖励函数 r ( s , a ) r(s,a) r(s,a)是未知的,针对具体的用户 s 0 s_0 s0,希望知道哪个 r ( s 0 , a i ) r(s_0,a_i) r(s0,ai)最高,这样就能推第 i i i个广告给该用户 s 0 s_0 s0,reward在该问题中是点击的概率
    5. 假设第 i i i个动作奖励分布 ν i \nu_i νi的期望为 μ i = E r i ∼ ν i ( s 0 , a i ) [ r i ] \mu_i=\mathbb E_{r_i\sim \nu_i(s_0,a_i)}[r_i] μi=Eriνi(s0,ai)[ri]
  • 问题描述
    1. 存在一个unkown的 μ ⋆ = max ⁡ i ∈ [ K ] μ i \mu^\star=\max_{i\in [K]}\mu_i μ=maxi[K]μi
    2. 允许T次尝试的情况下,在第t次尝试选择的动作变量命名为 I t I_t It,该动作变量服从的分布 ν I t \nu_{I_t} νIt,于是执行该动作观察到的reward来自该分布 r t ∼ ν I t r_t\sim \nu_{I_t} rtνIt,然后关于分布的期望信息 μ I t = E r ∼ ν I t [ r ] \mu_{I_t}=\mathbb E_{r\sim \nu_{I_t}}[r] μIt=ErνIt[r]
    3. 利用分布的期望信息来定义Regret如下,来衡量某个策略在允许T次探索与利用过程中的好坏:
      R e g r e t = T μ ⋆ − ∑ t = 0 T − 1 μ I t Regret=T \mu^\star-\sum_{t=0}^{T-1}\mu_{I_t} Regret=Tμt=0T1μIt
  • 经典的解决方案——Upper Confidence bound
    1. 对于 t = 0 , . . . , T − 1 : t=0,...,T-1: t=0,...,T1:
    2. 选择第t时刻的动作为: I t = arg max ⁡ i ∈ [ K ] ( μ ^ t ( i ) + ln ⁡ K T / δ N t ( i ) ) I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big) It=i[K]argmax(μ^t(i)+Nt(i)lnKT/δ )其中 N t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i) Nt(i)=τ=0t1I(Iτ=i)为t时刻之前选择了动作 i i i的次数,是一个关于t的变量 μ ^ t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) r τ N t ( i ) \hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)} μ^t(i)=τ=0t1Nt(i)I(Iτ=i)rτ为执行动作 i i i观察到的奖励 r τ r_\tau rτ的empirical mean

1.2 UCB的bound

1.2.1 定理基础

  • Martingale Difference Sequence
    参考Wikipedia的Martingale Difference定义,对于一个完备的概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) (Ω,F,P)——样本空间、事件空间、概率测度,定义了一连串序列 { X t , F t } − ∞ ∞ \{X_t,\mathcal F_t\}_{-\infty}^\infty {Xt,Ft},称 { X t } \{X_t\} {Xt}是Martingale Difference,只要其满足 ∀ t \forall t t
    1. E [ X t ] < ∞ \mathbb E[X_t]< \infty E[Xt]<
    2. E [ X t ∣ F t − 1 ] = 0 \mathbb E[X_t|\mathcal F_{t-1}]=0 E[XtFt1]=0

基于历史事件 F t − 1 \mathcal F_{t-1} Ft1,当前时刻 X t X_t Xt的期望为0

  • Hoeffding-Azuma Inequality
    1

区别于Hoeffding Inequality的地方在于Hoeffding-Azuma的样本是个由历史事件统计而维持的变量

  • 只考虑一个特定的动作 i ∈ [ K ] i\in[K] i[K]
    1. 随着 t = 0 , 1 , . . . , T − 1 t=0,1,...,T-1 t=0,1,...,T1有一串随机变量定义为 X t = I ( I t = i ) ( r t − μ i ) X_t=\text{I}(I_t=i)(r_t-\mu_i) Xt=I(It=i)(rtμi),其中 r t ∼ ν i , μ i = E r i ∼ ν i [ r i ] , r ∈ [ 0 , 1 ] r_t\sim \nu_i,\mu_i=\mathbb E_{r_i\sim \nu_i}[r_i],r\in[0,1] rtνi,μi=Eriνi[ri],r[0,1]
    2. I t = arg max ⁡ i ∈ [ K ] ( μ ^ t ( i ) + ln ⁡ K T / δ N t ( i ) ) I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big) It=i[K]argmax(μ^t(i)+Nt(i)lnKT/δ )
    3. N t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i) Nt(i)=τ=0t1I(Iτ=i)
    4. μ ^ t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) r τ N t ( i ) \hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)} μ^t(i)=τ=0t1Nt(i)I(Iτ=i)rτ
    5. 易知 ∣ X t ∣ ≤ 1 , { X t } |X_t|\leq 1,\{X_t\} Xt1,{Xt}是Martingale Difference Sequence

I t I_t It的选择基于 arg max ⁡ i ∈ [ K ] ( μ ^ t ( i ) + ln ⁡ K T / δ N t ( i ) ) \argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big) i[K]argmax(μ^t(i)+Nt(i)lnKT/δ ),其中 N t ( i ) , μ ^ t ( i ) N_t(i),\hat \mu_t(i) Nt(i),μ^t(i)都是基于 0 , 1 , . . , t − 1 0,1,..,t-1 0,1,..,t1 X 1 , . . . , X t − 1 X_1,...,X_{t-1} X1,...,Xt1而维持的历史事件相关的变量,统称 F t − 1 \mathcal F_{t-1} Ft1. 因此 E [ X t ∣ F t − 1 ] \mathbb E[X_t|\mathcal F_{t-1}] E[XtFt1]主要在变量 r t r_t rt,而 r t r_t rt的期望正是 μ i \mu_i μi,因此 E [ X t ∣ F t − 1 ] = 0 \mathbb E[X_t|\mathcal F_{t-1}]=0 E[XtFt1]=0,是一个Martingale Difference Sequence

所以根据Hoeffding-Azuma Inequality有:
∣ ∑ τ = 0 t − 1 X τ ∣ = ∣ ∑ τ = 0 t − 1 I ( I τ = i ) ( r τ − μ i ) ∣ = ∣ ∑ τ = 0 t − 1 I ( I τ = i ) r τ − ∑ τ = 0 t − 1 I ( I τ = i ) μ i ∣ = ∣ N t ( i ) μ ^ t ( i ) − N t ( i ) μ i ∣ ≤ 2 N t ( i ) ln ⁡ ( 1 / δ ) \begin{aligned} |\sum_{\tau=0}^{t-1}X_\tau|&=|\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)(r_\tau-\mu_i)|\\ &=|\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)r_\tau-\sum_{\tau=0}^{t-1}\text{I}(I_\tau=i)\mu_i|\\ &=|N_t(i)\hat \mu_t(i)-N_t(i)\mu_i|\\ &\leq 2\sqrt{N_t(i)\ln(1/\delta)} \end{aligned} τ=0t1Xτ=τ=0t1I(Iτ=i)(rτμi)=τ=0t1I(Iτ=i)rττ=0t1I(Iτ=i)μi=Nt(i)μ^t(i)Nt(i)μi2Nt(i)ln(1/δ)

因此对于任意的 i ∈ [ K ] , t ∈ [ T ] i\in[K],t\in[T] i[K],t[T],由union bound得
∣ μ ^ t ( i ) − μ i ∣ ≤ 2 ln ⁡ ( K T / δ ) N t ( i ) |\hat \mu_t(i)-\mu_i|\leq 2\sqrt{\frac{\ln (KT/\delta)}{N_t(i)}} μ^t(i)μi2Nt(i)ln(KT/δ)

1.2.2 UCB的证明

  1. 对于一个固定的动作 i ∈ [ K ] i\in [K] i[K]而言,根据定理基础有 ∣ μ ^ t ( i ) − μ i ∣ ≤ 2 ln ⁡ ( K T / δ ) N t ( i ) |\hat \mu_t(i)-\mu_i|\leq 2\sqrt{\frac{\ln (KT/\delta)}{N_t(i)}} μ^t(i)μi2Nt(i)ln(KT/δ)

意味着每一个动作 i i i,其奖励 r ( s 0 , a i ) r(s_0,a_i) r(s0,ai)所服从分布 ν i \nu_i νi的真实期望 μ i \mu_i μi被估计值 μ ^ t ( i ) \hat \mu_t(i) μ^t(i) bound住了

  1. 考虑第t步的Regret即 μ ⋆ − μ I t ≤ μ ^ t ( I t ) + 2 ln ⁡ ( K T / δ ) N t ( I t ) − μ I t ≤ μ ^ t ( I t ) + 2 ln ⁡ ( K T / δ ) N t ( I t ) − ( μ ^ t ( I t ) − 2 ln ⁡ ( K T / δ ) N t ( I t ) ) = 4 ln ⁡ ( K T / δ ) N t ( I t ) \begin{aligned} \mu^\star-\mu_{I_t}&\leq \hat \mu_{t}(I_t)+2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}-\mu_{I_t}\\ &\leq \hat \mu_{t}(I_t)+2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}-\Big(\hat \mu_{t}(I_t)-2\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}\Big)\\ &=4\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}} \end{aligned} μμItμ^t(It)+2Nt(It)ln(KT/δ) μItμ^t(It)+2Nt(It)ln(KT/δ) (μ^t(It)2Nt(It)ln(KT/δ) )=4Nt(It)ln(KT/δ)
  2. 因此对总体regret有:
    ∑ t = 0 T − 1 μ ⋆ − μ I t ≤ 4 ∑ t = 1 T ln ⁡ ( K T / δ ) N t ( I t ) = 4 ln ⁡ ( K T / δ ) ∑ t = 1 T 1 N t ( I t )  (2) = 4 ln ⁡ ( K T / δ ) ∑ i ∈ [ K ] ∑ n = 1 N T ( i ) 1 n  (3) ≤ 4 ln ⁡ ( K T / δ ) ∑ i ∈ [ K ] 2 N T ( i )  (4) = 4 ln ⁡ ( K T / δ ) 2 ∑ i = 1 K N T ( i ) ≤ 4 ln ⁡ ( K T / δ ) 2 ( 1 2 + 1 2 + ⋯ 1 2 ) ⏟ K ∑ i = 1 K N T ( i ) = 8 ln ⁡ ( K T / δ ) K T \begin{aligned} \sum_{t=0}^{T-1}\mu^\star-\mu_{I_t}&\leq 4\sum_{t=1}^{T}\sqrt{\frac{\ln (KT/\delta)}{N_t(I_t)}}\\ &=4\sqrt{\ln (KT/\delta)} \sum_{t=1}^{T}\sqrt{\frac{1}{N_t(I_t)}}\text{ (2)}\\ &=4\sqrt{\ln (KT/\delta)} \sum_{i\in [K]}\sum_{n=1}^{N_{T}(i)}\sqrt{\frac{1}{n}}\text{ (3)}\\ &\leq 4\sqrt{\ln (KT/\delta)} \sum_{i\in [K]}2\sqrt{N_{T}(i)}\text{ (4)}\\ &= 4\sqrt{\ln (KT/\delta)}2 \sum_{i=1}^K\sqrt{N_{T}(i)}\\ &\leq 4\sqrt{\ln (KT/\delta)}2\sqrt{\underbrace{(1^2+1^2+\cdots1^2)}_K\sum_{i=1}^K N_T(i)}\\ &= 8\sqrt{\ln (KT/\delta)} \sqrt{KT} \end{aligned} t=0T1μμIt4t=1TNt(It)ln(KT/δ) =4ln(KT/δ) t=1TNt(It)1  (2)=4ln(KT/δ) i[K]n=1NT(i)n1  (3)4ln(KT/δ) i[K]2NT(i)  (4)=4ln(KT/δ) 2i=1KNT(i) 4ln(KT/δ) 2K (12+12+12)i=1KNT(i) =8ln(KT/δ) KT
  • 第(2)到第(3)步: ∑ t = 0 T − 1 1 N t ( I t ) \sum_{t=0}^{T-1}\sqrt{\frac{1}{N_t(I_t)}} t=0T1Nt(It)1 表示每个时间刻 t t t内,对每个可能动作 i i i I t = i I_t=i It=i的次数的求和,它亦可以表示为对于每个动作 i i i而言,结束时的实际次数的求和
  • 第(3)到第(4)步: ∑ n = 1 N T ( i ) f ′ ( n ) = f ( N T ( i ) ) − f ( 1 ) ≤ f ( N T ( i ) ) \sum_{n=1}^{N_T(i)}f'(n) =f(N_T(i))-f(1)\leq f(N_T(i)) n=1NT(i)f(n)=f(NT(i))f(1)f(NT(i)),其中 f ′ ( x ) = − x 1 2 , f ( x ) = 2 x 1 2 f'(x)=-x^{\frac{1}{2}},f(x)=2x^{\frac{1}{2}} f(x)=x21,f(x)=2x21

二、Linear Bandits

2.1 扩充的问题定义

扩充的点:将第 t t t次尝试的动作变量 I t = i I_t=i It=i,从离散的 I t = i , i ∈ [ K ] I_t=i,i\in[K] It=i,i[K]扩充到连续的 x t x_t xt,考虑一个多维的连续动作变量 x t ∈ X ∈ R d x_t\in \mathcal X\in \mathbb R^d xtXRd
MAB的缺陷: 上述说明了Regret的Bound大体上是 O ( ln ⁡ ( K T / δ ) K T ) O(\sqrt{\ln (KT/\delta)}\sqrt{KT}) O(ln(KT/δ) KT ),但K是离散动作取值的数量,连续的话是无限的,直接替换为连续空间为 O ( ln ⁡ ( ∣ X ∣ T / δ ) ∣ X ∣ T ) O(\sqrt{\ln (|\mathcal X|T/\delta)}\sqrt{|\mathcal X|T}) O(ln(XT/δ) XT ),不可接受。希望为 O ( ln ⁡ ( ∣ d ∣ T / δ ) ∣ d ∣ T ) O(\sqrt{\ln (|d|T/\delta)}\sqrt{|\mathcal d|T}) O(ln(dT/δ) dT ),只跟维度有关
问题描述

  1. 对于第t次观测到的奖励变量 r t ∈ [ − 1 , 1 ] r_t\in[-1,1] rt[1,1],先给一个有界性
  2. 假设采用了连续动作变量 x t x_t xt,奖励变量 r t r_t rt服从分布的期望信息与动作变量 x t x_t xt有关即 E [ r t ∣ x t = x ] = ( μ ⋆ ) ⊤ x \mathbb E[r_t|x_t=x]=(\mu^\star)^\top x E[rtxt=x]=(μ)x(线性结构的假设)
  3. 噪声noise η t = r t − ( μ ⋆ ) ⊤ x t \eta_t=r_t-(\mu^\star)^\top x_t ηt=rt(μ)xt
  4. 最优的动作值为 x ⋆ = arg max ⁡ x ∈ X ( μ ⋆ ) ⊤ x x^\star=\argmax_{x\in \mathcal X}(\mu^\star)^\top x x=xXargmax(μ)x
  5. 最优的期望奖励值 ( μ ⋆ ) ⊤ x ⋆ (\mu^\star)^\top x^\star (μ)x
  6. 所以T次尝试整体的Regret为: R e g r e t T = T ( μ ⋆ ) ⊤ x ⋆ − ∑ t = 0 T − 1 ( μ ⋆ ) ⊤ x t Regret_T=T(\mu^\star)^\top x^\star-\sum_{t=0}^{T-1}(\mu^\star)^\top x_t RegretT=T(μ)xt=0T1(μ)xt

新增的疑惑:
μ ⋆ \mu^\star μ怎么来?(需要估计)

2.2 Least Square对 μ ⋆ \mu^\star μ进行估计

假设现在已经执行了t次动作,那么就有数据集 { x τ , r τ } τ = 0 t − 1 \{x_\tau,r_\tau\}_{\tau=0}^{t-1} {xτ,rτ}τ=0t1,根据问题的论述,我们知道 r τ r_\tau rτ是由期望为 μ ⋆ x τ \mu^\star x_\tau μxτ的分布上采样而来的,下面用Ridge Regression对 μ ⋆ \mu^\star μ进行估计,估计得到的参数记为 μ ^ t \hat \mu_t μ^t μ ^ t = arg min ⁡ μ ∥ μ x τ − r τ ∥ 2 2 + λ ∥ μ ∥ 2 2 \hat \mu_t=\argmin_{\mu}\|\mu x_\tau-r_\tau\|_2^2+\lambda\|\mu\|_2^2 μ^t=μargminμxτrτ22+λμ22解析式可求得 μ ^ t = ( λ I + ∑ τ = 0 t − 1 x τ x τ ⊤ ) − 1 ∑ τ = 0 t − 1 r τ x τ = Σ t − 1 ∑ τ = 0 t − 1 r τ x τ \hat \mu_t=\Big(\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top\Big)^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau=\Sigma_t^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau μ^t=(λI+τ=0t1xτxτ)1τ=0t1rτxτ=Σt1τ=0t1rτxτ
通过最小二乘法估计得到参数,有很好的理论性质。考虑参数空间,在估计点周围 μ ^ t \hat \mu_t μ^t,建立一个由参数 β t \beta_t βt控制的uncertainty region B a l l t Ball_t Ballt如下:
B a l l t = { μ ∣ ( μ ^ t − μ ) ⊤ Σ t ( μ ^ t − μ ) ≤ β t } Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\} Ballt={μ(μ^tμ)Σt(μ^tμ)βt}

然后通过输入超参数 λ , β t \lambda,\beta_t λ,βt,来解决这个Linear Bandits的问题,对应的算法为Linear UCB。

2.3 LinUCB算法流程

  1. 输入 λ , β t \lambda,\beta_t λ,βt
  2. 对于 t = 0 , 1 , . . . , T − 1 t=0,1,...,T-1 t=0,1,...,T1
    • 在第t步选择执行动作 x t = arg max ⁡ x ∈ X max ⁡ μ ∈ B a l l t μ ⊤ x x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x xt=xXargmaxμBalltmaxμx
    • 观察到新的样本 x t , r t x_t,r_t xt,rt
    • 更新 B a l l t + 1 Ball_{t+1} Ballt+1

三、LinUCB的定理与证明

在说证明之前,先谈谈LinUCB的疑惑(证明两小节按如下两个问题展开):

  1. 怎么设置 λ , β t \lambda,\beta_t λ,βt,才能保证 B a l l t Ball_t Ballt覆盖了 μ ⋆ \mu^\star μ? (公式表述: Pr ⁡ ( μ ⋆ ∈ B a l l t , ∀ t ) ≥ 1 − δ \Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta Pr(μBallt,t)1δ)
  2. 如果 B a l l t Ball_t Ballt覆盖了 μ ⋆ \mu^\star μ,那么总体 R e g r e t T Regret_T RegretT的复杂度是多少?

LinUCB的理论定理

  • 假设相关变量的有界性:噪声 ∣ η t ∣ ≤ σ |\eta_t|\leq \sigma ηtσ,参数
    ∥ μ ⋆ ∥ ≤ W \|\mu^\star\|\leq W μW,动作值 ∥ x ∥ ≤ B , x ∈ R d \|x\|\leq B,x\in\mathbb R^d xB,xRd,奖励函数的值域 r t = ( μ ⋆ ) ⊤ x t + η t ∈ [ − 1 , 1 ] r_t=(\mu^\star)^\top x_t+\eta_t\in [-1,1] rt=(μ)xt+ηt[1,1]
  • 设置 λ = σ 2 W 2 \lambda=\frac{\sigma^2}{W^2} λ=W2σ2 β t = σ 2 ( 2 + 4 d ln ⁡ ( 1 + t B 2 W 2 d ) + 8 ln ⁡ ( 4 / δ ) ) \beta_t=\sigma^2(2+4d\ln(1+\frac{tB^2W^2}{d})+8\ln(4/\delta)) βt=σ2(2+4dln(1+dtB2W2)+8ln(4/δ))
  • 则有 1 − δ 1-\delta 1δ的概率,存在一个常数 c c c对于所有 T > 0 T>0 T>0有: R e g r e t T ≤ c σ T ( d ln ⁡ ( 1 + T B 2 W 2 d σ 2 ) + ln ⁡ ( 4 / δ ) ) Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big) RegretTcσT (dln(1+dσ2TB2W2)+ln(4/δ))

简单来看,Regret的上界为 O ( d T ) O(d\sqrt{T}) O(dT ),虽然不是 O ( d T ) O(\sqrt{dT}) O(dT ),但也不错,毕竟维度 d d d是有限的,与连续空间 X \mathcal X X的势 ∣ X ∣ |\mathcal X| X无关

但其实 R e g r e t T Regret_T RegretT的下界仍为 d T d\sqrt{T} dT ,意味着没有更优的算法使得其为 O ( d T ) O(\sqrt{dT}) O(dT )

证明与论述需要用到的公式基础:(证明提供在3.2小节LinUCB的Regret Bound)

  1. 公式一:证明 ∣ ( μ − μ ^ t ) ⊤ x ∣ ≤ β t x ⊤ Σ t − 1 x |(\mu-\hat \mu_t)^\top x|\leq \sqrt{\beta_tx^\top\Sigma_t^{-1}x} (μμ^t)xβtxΣt1x
  2. 公式二:如果 μ ⋆ ∈ B a l l t \mu^\star\in Ball_t μBallt,则 r e g r e t t = ( μ ⋆ ) ⊤ x ⋆ − ( μ ⋆ ) ⊤ x t ≤ 2 min ⁡ ( β t x ⊤ Σ t − 1 x , 1 ) ≤ 2 β T min ⁡ ( x ⊤ Σ t − 1 x , 1 ) regret_t=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t\leq2\min(\sqrt{\beta_tx^\top\Sigma_t^{-1}x},1)\leq 2\sqrt{\beta_T}\min(\sqrt{x^\top\Sigma_t^{-1}x},1) regrett=(μ)x(μ)xt2min(βtxΣt1x ,1)2βT min(xΣt1x ,1)
  3. 公式三: det ⁡ Σ T = ( det ⁡ Σ 0 ) ∏ t = 0 T − 1 ( 1 + x ⊤ Σ t − 1 x ) \det \Sigma_T=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+x^\top\Sigma_t^{-1}x) detΣT=(detΣ0)t=0T1(1+xΣt1x)
  4. 公式四:对于任意 t < T t<T t<T的序列 x 0 , . . . , x T − 1 , ∥ x t ∥ 2 ≤ B x_0,...,x_{T-1},\|x_t\|_2\leq B x0,...,xT1,xt2B,则有 log ⁡ ( det ⁡ Σ T − 1 / det ⁡ Σ 0 ) = log ⁡ det ⁡ ( I + 1 λ ∑ t = 0 T − 1 x t x t ⊤ ) ≤ d log ⁡ ( 1 + T B 2 d λ ) \log \left(\operatorname{det} \Sigma_{T-1} / \operatorname{det} \Sigma_{0}\right)=\log \operatorname{det}\left(I+\frac{1}{\lambda} \sum_{t=0}^{T-1} x_{t} x_{t}^{\top}\right) \leq d \log \left(1+\frac{T B^{2}}{d \lambda}\right) log(detΣT1/detΣ0)=logdet(I+λ1t=0T1xtxt)dlog(1+dλTB2)

3.1 关于 B a l l t Ball_t Ballt的论述

目标:如何设置 β t \beta_t βt,能有 1 − δ 1-\delta 1δ的概率,使得 μ ⋆ ∈ B a l l t , ∀ t \mu^\star\in Ball_t,\forall t μBallt,t?即 Pr ⁡ ( μ ⋆ ∈ B a l l t , ∀ t ) ≥ 1 − δ \Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta Pr(μBallt,t)1δ

已知 Σ 0 = λ I , Σ t = λ I + ∑ τ = 0 t − 1 x τ x τ ⊤ , B a l l t = { μ ∣ ( μ ^ t − μ ) ⊤ Σ t ( μ ^ t − μ ) ≤ β t } , r τ = ( μ ⋆ ) ⊤ x τ + η τ \Sigma_0=\lambda I,\Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top,Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\},r_\tau=(\mu^\star)^\top x_\tau+\eta_\tau Σ0=λI,Σt=λI+τ=0t1xτxτ,Ballt={μ(μ^tμ)Σt(μ^tμ)βt},rτ=(μ)xτ+ητ

  1. 考虑欧式空间上参数的估计值与参数最优值的 ℓ 2 \ell_2 2-norm:
    ∥ μ ^ t − μ ⋆ ∥ 2 = ∥ Σ t − 1 ∑ τ = 0 t − 1 r τ x τ − μ ⋆ ∥ 2 = ∥ Σ t − 1 ∑ τ = 0 t − 1 ( ( μ ⋆ ) ⊤ x τ + η τ ) x τ − μ ⋆ ∥ 2 = ∥ Σ t − 1 ( ∑ τ = 0 t − 1 x τ x τ ⊤ ) μ ⋆ + Σ t − 1 ∑ τ = 0 t − 1 η τ x τ − μ ⋆ ∥ 2 = ∥ Σ t − 1 ( Σ t − λ I ) μ ⋆ + Σ t − 1 ∑ τ = 0 t − 1 η τ x τ − μ ⋆ ∥ 2 = ∥ − λ Σ t − 1 μ ⋆ + Σ t − 1 ∑ τ = 0 t − 1 η τ x τ ∥ 2  (1) \begin{aligned} \|\hat \mu_t-\mu^\star\|_2&=\|\Sigma_t^{-1}\sum_{\tau=0}^{t-1}r_\tau x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}\sum_{\tau=0}^{t-1}((\mu^\star)^\top x_\tau+\eta_\tau) x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}(\sum_{\tau=0}^{t-1} x_\tau x_\tau^\top)\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau-\mu^\star\|_2\\ &=\|\Sigma_t^{-1}(\Sigma_t-\lambda I)\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau-\mu^\star\|_2\\ &=\|-\lambda\Sigma_t^{-1}\mu^\star+\Sigma_t^{-1}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\text{ (1)}\\ \end{aligned} μ^tμ2=Σt1τ=0t1rτxτμ2=Σt1τ=0t1((μ)xτ+ητ)xτμ2=Σt1(τ=0t1xτxτ)μ+Σt1τ=0t1ητxτμ2=Σt1(ΣtλI)μ+Σt1τ=0t1ητxτμ2=λΣt1μ+Σt1τ=0t1ητxτ2 (1)
  2. 考虑 B a l l t Ball_t Ballt空间上参数的估计值与参数最优值的距离:
    ( μ ^ t − μ ⋆ ) ⊤ Σ t ( μ ^ t − μ ⋆ ) = ( Σ t 1 / 2 ( μ ^ t − μ ⋆ ) ) ⊤ ( Σ t 1 / 2 ( μ ^ t − μ ⋆ ) ) = ∥ Σ t 1 / 2 ( μ ^ t − μ ⋆ ) ∥ 2 代 入 ( 1 ) = ∥ − λ Σ t − 1 / 2 μ ⋆ + Σ t − 1 / 2 ∑ τ = 0 t − 1 η τ x τ ∥ 2 ≤ ∥ λ Σ t − 1 / 2 μ ⋆ ∥ 2 + ∥ Σ t − 1 / 2 ∑ τ = 0 t − 1 η τ x τ ∥ 2 ≤ λ ∥ μ ⋆ ∥ 2 + ∥ Σ t − 1 / 2 ∑ τ = 0 t − 1 η τ x τ ∥ 2 \begin{aligned} \sqrt{(\hat \mu_t-\mu^\star)^\top \Sigma_t(\hat \mu_t-\mu^\star)}&=\sqrt{(\Sigma_t^{1/2}(\hat \mu_t-\mu^\star))^\top (\Sigma_t^{1/2}(\hat \mu_t-\mu^\star))}\\ &=\|\Sigma_t^{1/2}(\hat \mu_t-\mu^\star)\|_2\\ 代入(1)&=\|-\lambda\Sigma_t^{-1/2}\mu^\star+\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ &\leq \|\lambda\Sigma_t^{-1/2}\mu^\star\|_2+\|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ &\leq \sqrt \lambda \|\mu^\star\|_2+\|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2\\ \end{aligned} (μ^tμ)Σt(μ^tμ) (1)=(Σt1/2(μ^tμ))(Σt1/2(μ^tμ)) =Σt1/2(μ^tμ)2=λΣt1/2μ+Σt1/2τ=0t1ητxτ2λΣt1/2μ2+Σt1/2τ=0t1ητxτ2λ μ2+Σt1/2τ=0t1ητxτ2

矩阵的norm ∥ Σ t ∥ 2 = ∥ λ I + ∑ τ = 0 t − 1 x τ x τ ⊤ ∥ 2 ≥ λ \|\Sigma_t\|_2=\|\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top\|_2\geq \lambda Σt2=λI+τ=0t1xτxτ2λ,因此有 ∥ Σ t − 1 / 2 ∥ 2 ≤ 1 λ \|\Sigma_t^{-1/2}\|_2\leq \frac{1}{\sqrt{\lambda}} Σt1/22λ 1

  1. 为了放缩 ∥ Σ t − 1 / 2 ∑ τ = 0 t − 1 η τ x τ ∥ 2 \|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2 Σt1/2τ=0t1ητxτ2,需要用到如下定理,其中 ∥ x ∥ Σ t − 1 2 = x ⊤ Σ t − 1 x \|x\|_{\Sigma_t^{-1}}^2=x^\top \Sigma_t^{-1} x xΣt12=xΣt1x2
  2. 所以有 1 − δ t 1-\delta_t 1δt的概率有如下成立:(噪声有界性 ∣ η ∣ ≤ σ |\eta|\leq \sigma ησ,动作有界性 ∥ x t ∥ 2 ≤ B , x t ∈ R d \|x_t\|_2\leq B,x_t\in \mathbb R^d xt2B,xtRd)
    ∥ Σ t − 1 / 2 ∑ τ = 0 t − 1 η τ x τ ∥ 2 = ( ∑ τ = 0 t − 1 η τ x τ ) ⊤ Σ t − 1 ( ∑ τ = 0 t − 1 η τ x τ ) ≤ σ 2 ln ⁡ ( det ⁡ ( Σ t ) det ⁡ ( Σ 0 ) − 1 δ t 2 ) ≤ 2 σ 2 ln ⁡ ( det ⁡ ( Σ t ) det ⁡ ( Σ 0 ) − 1 ) − 2 σ 2 ln ⁡ δ t ( 公 式 四 ) ≤ 2 σ 2 d ln ⁡ ( 1 + T B 2 d λ ) − 2 σ 2 ln ⁡ δ t \begin{aligned} \|\Sigma_t^{-1/2}\sum_{\tau=0}^{t-1}\eta_\tau x_\tau\|_2&=\sqrt{(\sum_{\tau=0}^{t-1}\eta_\tau x_\tau)^\top \Sigma_t^{-1}(\sum_{\tau=0}^{t-1}\eta_\tau x_\tau)}\\ &\leq \sqrt{\sigma^2 \ln(\frac{\det(\Sigma_t) \det (\Sigma_0)^{-1}}{\delta_t^2})}\\ &\leq\sqrt{2\sigma^2\ln(\det(\Sigma_t) \det (\Sigma_0)^{-1})-2\sigma^2\ln\delta_t}\\ (公式四)&\leq \sqrt{2\sigma^2d \ln (1+\frac{T B^{2}}{d \lambda})-2\sigma^2\ln\delta_t} \end{aligned} Σt1/2τ=0t1ητxτ2()=(τ=0t1ητxτ)Σt1(τ=0t1ητxτ) σ2ln(δt2det(Σt)det(Σ0)1) 2σ2ln(det(Σt)det(Σ0)1)2σ2lnδt 2σ2dln(1+dλTB2)2σ2lnδt
  3. 如何设置 δ t \delta_t δt,能保证至少有 1 − δ 1-\delta 1δ的概率有 Pr ⁡ ( μ ⋆ ∈ B a l l t , ∀ t ) ≥ 1 − δ \Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta Pr(μBallt,t)1δ?令 δ t = 6 δ π 2 t 2 \delta_t=\frac{6\delta}{\pi ^2t^2} δt=π2t26δ
    1 − Pr ⁡ ( μ ⋆ ∈ B a l l t , ∀ t ) = Pr ⁡ ( ∃ t , μ ⋆ ∉ B a l l t ) ≤ ∑ t = 1 ∞ Pr ⁡ ( μ ⋆ ∉ B a l l t ) = ∑ t = 1 ∞ 6 δ π 2 t 2 < δ \begin{aligned} 1-\Pr(\mu^\star\in Ball_t,\forall t)&=\Pr(\exists t,\mu^\star\notin Ball_t)\\ &\leq \sum_{t=1}^{\infty}\Pr(\mu^\star \notin Ball_t)\\ &=\sum_{t=1}^\infty \frac{6\delta}{ \pi^2t^2} < \delta \end{aligned} 1Pr(μBallt,t)=Pr(t,μ/Ballt)t=1Pr(μ/Ballt)=t=1π2t26δ<δ

易知 ∑ t = 1 ∞ 1 / t 2 = π 2 / 6 \sum_{t=1}^\infty 1/t^2=\pi^2/6 t=11/t2=π2/6,利用无穷级数的知识

  1. 所以最终有: δ t = 6 δ π 2 t 2 \delta_t=\frac{6\delta}{\pi ^2t^2} δt=π2t26δ
    ( μ ^ t − μ ⋆ ) ⊤ Σ t ( μ ^ t − μ ⋆ ) ≤ λ ∥ μ ⋆ ∥ 2 + 2 σ 2 d ln ⁡ ( 1 + T B 2 d λ ) − 2 σ 2 ln ⁡ δ t = β t 解 得 : β t = σ 2 ( 2 + 4 d ln ⁡ ( 1 + t B 2 W 2 d ) + 8 ln ⁡ ( 4 / δ ) ) \sqrt{(\hat \mu_t-\mu^\star)^\top \Sigma_t(\hat \mu_t-\mu^\star)} \leq \sqrt \lambda \|\mu^\star\|_2+\sqrt{2\sigma^2d \ln (1+\frac{T B^{2}}{d \lambda})-2\sigma^2\ln\delta_t}= \sqrt{\beta_t}\\ 解得:\beta_t=\sigma^2(2+4d\ln(1+\frac{tB^2W^2}{d})+8\ln(4/\delta)) (μ^tμ)Σt(μ^tμ) λ μ2+2σ2dln(1+dλTB2)2σ2lnδt =βt βt=σ2(2+4dln(1+dtB2W2)+8ln(4/δ))
  2. t = 0 t=0 t=0时,确保 Pr ⁡ ( μ ⋆ ∈ B a l l 0 ) \Pr(\mu^\star \in Ball_0) Pr(μBall0),可得 λ = σ 2 W 2 \lambda=\frac{\sigma^2}{W^2} λ=W2σ2
  3. 这样设置 λ , β t \lambda,\beta_t λ,βt可以确保 Pr ⁡ ( μ ⋆ ∈ B a l l t , ∀ t ) ≥ 1 − δ \Pr(\mu^\star\in Ball_t,\forall t)\geq 1-\delta Pr(μBallt,t)1δ

3.2 关于LinUCB的Regret Bound

目标:Bound住 R e g r e t T = ∑ t = 0 T − 1 R e g r e t t = ∑ t = 0 T − 1 ( μ ⋆ ) ⊤ x ⋆ − ( μ ⋆ ) ⊤ x t Regret_T=\sum_{t=0}^{T-1}Regret_t=\sum_{t=0}^{T-1}(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t RegretT=t=0T1Regrett=t=0T1(μ)x(μ)xt
分析 R e g r e t T ≤ T ∑ t = 0 T − 1 R e g r e t t 2 Regret_T\leq \sqrt{T \sum_{t=0}^{T-1}Regret_t^2} RegretTTt=0T1Regrett2 ,因此关注 ∑ t = 0 T − 1 R e g r e t t 2 \sum_{t=0}^{T-1}Regret_t^2 t=0T1Regrett2
已知:最优参数 μ ⋆ ∈ B a l l t = { μ ∣ ( μ ^ t − μ ) ⊤ Σ t ( μ ^ t − μ ) ≤ β t } \mu^\star\in Ball_t=\{\mu|(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)\leq \beta_t\} μBallt={μ(μ^tμ)Σt(μ^tμ)βt},协方差矩阵 Σ t = λ I + ∑ τ = 0 t − 1 x τ x τ ⊤ \Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_{\tau}x_\tau^\top Σt=λI+τ=0t1xτxτ

3.2.1 公式一:宽度 w t w_t wt

如果 μ ∈ B a l l t \mu\in Ball_t μBallt,那么对于动作空间 X \mathcal X X的点 x x x,有 ∣ ( μ − μ ^ t ) ⊤ x ∣ ≤ β t x ⊤ Σ t − 1 x |(\mu-\hat \mu_t)^\top x|\leq \sqrt{\beta_tx^\top\Sigma_t^{-1}x} (μμ^t)xβtxΣt1x ∣ ( μ − μ ^ t ) ⊤ x ∣ = ∣ ( μ − μ ^ t ) ⊤ Σ t 1 / 2 Σ t − 1 / 2 x ∣ = ∣ ( Σ t 1 / 2 ( μ − μ ^ t ) ) ⊤ Σ t − 1 / 2 x ∣ ≤ ∥ ( Σ t 1 / 2 ( μ − μ ^ t ) ) ⊤ ∥ 2 ∥ Σ t − 1 / 2 x ∥ 2 = ( Σ t 1 / 2 ( μ − μ ^ t ) ) ⊤ Σ t 1 / 2 ( μ − μ ^ t ) ( Σ t − 1 / 2 x ) ⊤ Σ t − 1 / 2 x = ( μ ^ t − μ ) ⊤ Σ t ( μ ^ t − μ ) x ⊤ Σ t − 1 x ≤ β t x ⊤ Σ t − 1 x = β t w t \begin{aligned} |(\mu-\hat \mu_t)^\top x|&=|(\mu-\hat \mu_t)^\top \Sigma_t^{1/2}\Sigma_t^{-1/2} x|\\ &=|(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top \Sigma_t^{-1/2} x|\\ &\leq \|(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top\|_2\|\Sigma_t^{-1/2} x\|_2\\ &= \sqrt{(\Sigma_t^{1/2}(\mu-\hat \mu_t))^\top\Sigma_t^{1/2}(\mu-\hat \mu_t)}\sqrt{(\Sigma_t^{-1/2} x)^\top \Sigma_t^{-1/2} x}\\ &=\sqrt{(\hat \mu_t-\mu)^\top \Sigma_t(\hat \mu_t-\mu)}\sqrt{x^\top \Sigma^{-1}_tx}\\ &\leq \sqrt {\beta_t x^\top \Sigma^{-1}_tx}\\ &=\sqrt{\beta_t}w_t \end{aligned} (μμ^t)x=(μμ^t)Σt1/2Σt1/2x=(Σt1/2(μμ^t))Σt1/2x(Σt1/2(μμ^t))2Σt1/2x2=(Σt1/2(μμ^t))Σt1/2(μμ^t) (Σt1/2x)Σt1/2x =(μ^tμ)Σt(μ^tμ) xΣt1x βtxΣt1x =βt wt

简记 w t = x t ⊤ Σ t − 1 x t w_t=\sqrt{x_t^\top \Sigma_t^{-1}x_t} wt=xtΣt1xt

w t w_t wt可理解成数据 x t x_t xtnormalized后的宽度, x t ⊤ Σ t − 1 x t = Σ t − 1 / 2 x t ⊤ Σ − 1 / 2 x t = < Σ − 1 / 2 x t , Σ − 1 / 2 x t > = ∥ Σ − 1 / 2 x t ∥ 2 2 = w t 2 x_t^\top\Sigma_t^{-1}x_t=\Sigma_t^{-1/2}x_t^\top \Sigma^{-1/2}x_t=<\Sigma^{-1/2}x_t,\Sigma^{-1/2}x_t>=\|\Sigma^{-1/2}x_t\|_2^2=w_t^2 xtΣt1xt=Σt1/2xtΣ1/2xt=<Σ1/2xt,Σ1/2xt>=Σ1/2xt22=wt2。根据现有数据估计的协方差,对已有数据 x t x_t xt进行normalized后所对应的宽度

3.2.2 公式二:分析 r e g r e t t regret_t regrett

如果 μ ⋆ ∈ B a l l t \mu^\star\in Ball_t μBallt,那么有
r e g r e t t = ( μ ⋆ ) ⊤ x ⋆ − ( μ ⋆ ) ⊤ x t ≤ 2 min ⁡ ( β t x ⊤ Σ t − 1 x , 1 ) ≤ 2 β T min ⁡ ( x ⊤ Σ t − 1 x , 1 ) \begin{aligned} regret_t=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t&\leq2\min(\sqrt{\beta_tx^\top\Sigma_t^{-1}x},1)\\ &\leq 2\sqrt{\beta_T}\min(\sqrt{x^\top\Sigma_t^{-1}x},1) \end{aligned} regrett=(μ)x(μ)xt2min(βtxΣt1x ,1)2βT min(xΣt1x ,1)因为LinUCB中动作的选择为 x t = arg max ⁡ x ∈ X max ⁡ μ ∈ B a l l t μ ⊤ x x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x xt=xXargmaxmaxμBalltμx,那么 B a l l t Ball_t Ballt中必存在一个 μ ~ t \tilde \mu_t μ~t使得 μ ~ t x t ≥ ( μ ⋆ ) ⊤ x ⋆ \tilde \mu_t x_t\geq (\mu^\star)^\top x^\star μ~txt(μ)x,所以
r e g r e t t = ( μ ⋆ ) ⊤ x ⋆ − ( μ ⋆ ) ⊤ x t ≤ ( μ ~ ) ⊤ x t − ( μ ⋆ ) ⊤ x t = ( μ ~ − μ ^ t ) ⊤ x t + ( μ ^ t − μ ⋆ ) ⊤ x t ( 公 式 一 ) ≤ 2 β t w t = 2 min ⁡ ( β t w t , 1 ) ≤ 2 β T min ⁡ ( w t , 1 ) \begin{aligned} regret_t&=(\mu^\star)^\top x^\star-(\mu^\star)^\top x_t\\ &\leq (\tilde \mu)^\top x_t-(\mu^\star)^\top x_t\\ &=(\tilde \mu-\hat \mu_t)^\top x_t +(\hat \mu_t-\mu^\star)^\top x_t\\ (公式一)&\leq2\sqrt{\beta_t}w_t\\ &=2\min(\sqrt{\beta_t}w_t,1)\\ &\leq 2\sqrt{\beta_T}\min(w_t,1) \end{aligned} regrett()=(μ)x(μ)xt(μ~)xt(μ)xt=(μ~μ^t)xt+(μ^tμ)xt2βt wt=2min(βt wt,1)2βT min(wt,1)

因为 r t ∈ [ − 1 , 1 ] , r τ = μ ⋆ x τ + η τ r_t\in [-1,1],r_\tau=\mu^\star x_\tau+\eta_\tau rt[1,1],rτ=μxτ+ητ所以有 ∣ μ ⋆ x τ ∣ ≤ 1 |\mu^\star x_\tau|\leq1 μxτ1,从而 r e g r e t t ≤ 2 regret_t\leq 2 regrett2。所以如果 β t w t \sqrt{\beta_t}w_t βt wt大于1的时候,没有意义;由 β t \beta_t βt的设置可知它是单调递增的。

关注目标 ∑ t = 0 T − 1 R e g r e t t 2 ≤ 4 β T ∑ t = 0 T − 1 min ⁡ ( w t 2 , 1 ) ≤ 8 β T ∑ t = 0 T − 1 ln ⁡ ( 1 + w t 2 ) \sum_{t=0}^{T-1}Regret_t^2\leq4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)\leq 8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2) t=0T1Regrett24βTt=0T1min(wt2,1)8βTt=0T1ln(1+wt2),从而需要知道如何bound住 ∑ t = 0 T − 1 ln ⁡ ( 1 + w t 2 ) \sum_{t=0}^{T-1} \ln(1+w_t^2) t=0T1ln(1+wt2),这时候需要求助公式三

0 ≤ w t ≤ 1 0\leq w_t\leq1 0wt1,有 w t / 2 ≤ ln ⁡ ( 1 + w t 2 ) w_t/2\leq \ln(1+w_t^2) wt/2ln(1+wt2),可求导证明

3.2.3 公式三:协反差矩阵的定义

  • 公式三:
    det ⁡ Σ T = ( det ⁡ Σ 0 ) ∏ t = 0 T − 1 ( 1 + x ⊤ Σ t − 1 x ) = ( det ⁡ Σ 0 ) ∏ t = 0 T − 1 ( 1 + w t 2 ) \det \Sigma_T=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+x^\top\Sigma_t^{-1}x)=(\det\Sigma_0) \prod_{t=0}^{T-1}(1+w_t^2) detΣT=(detΣ0)t=0T1(1+xΣt1x)=(detΣ0)t=0T1(1+wt2)
  • 这里协方差的定义为:
    Σ 0 = λ 0 I , Σ t = λ I + ∑ τ = 0 t − 1 x τ x τ ⊤ , Σ t + 1 = Σ t + x t x t ⊤ \Sigma_0=\lambda_0I,\Sigma_t=\lambda I+\sum_{\tau=0}^{t-1}x_\tau x_\tau^\top,\Sigma_{t+1}=\Sigma_t+x_{t}x_t^\top Σ0=λ0I,Σt=λI+τ=0t1xτxτ,Σt+1=Σt+xtxt
    且有宽度 w t = x t ⊤ Σ t − 1 x t w_t=\sqrt{x_t^\top \Sigma_t^{-1}x_t} wt=xtΣt1xt

下面递归关系可直接证明公式三:
det ⁡ Σ t + 1 = det ⁡ ( Σ t + x t x t ⊤ ) = det ⁡ ( Σ t 1 / 2 ( I + Σ − 1 / 2 x t x t ⊤ Σ − 1 / 2 ) Σ t 1 / 2 ) = det ⁡ Σ t det ⁡ ( I + Σ − 1 / 2 x t x t ⊤ Σ − 1 / 2 ) = det ⁡ Σ t det ⁡ ( I + Σ − 1 / 2 x t ( Σ − 1 / 2 x t ) ⊤ ) = ( 1 + w t 2 ) det ⁡ Σ t  (主要解释这一步) \begin{aligned} \det\Sigma_{t+1}&=\det(\Sigma_t+x_{t}x_t^\top)\\ &=\det(\Sigma_t^{1/2}(I+\Sigma^{-1/2}x_tx_t^\top\Sigma^{-1/2})\Sigma_t^{1/2})\\ &=\det \Sigma_t \det (I+\Sigma^{-1/2}x_tx_t^\top\Sigma^{-1/2})\\ &=\det \Sigma_t \det (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top)\\ &=(1+w_t^2)\det \Sigma_t \text{ (主要解释这一步)}\\ \end{aligned} detΣt+1=det(Σt+xtxt)=det(Σt1/2(I+Σ1/2xtxtΣ1/2)Σt1/2)=detΣtdet(I+Σ1/2xtxtΣ1/2)=detΣtdet(I+Σ1/2xt(Σ1/2xt))=(1+wt2)detΣt (主要解释这一步)

因为 Σ − 1 / 2 x t ( Σ − 1 / 2 x t ) ⊤ \Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top Σ1/2xt(Σ1/2xt)是个秩(rank)为1的矩阵,且 w t 2 = x t ⊤ Σ t − 1 x t = ( Σ − 1 / 2 x t ) ⊤ ( Σ − 1 / 2 x t ) w_t^2=x_t^\top \Sigma_t^{-1}x_t=(\Sigma^{-1/2}x_t)^\top(\Sigma^{-1/2}x_t) wt2=xtΣt1xt=(Σ1/2xt)(Σ1/2xt),所以有:

( I + Σ − 1 / 2 x t ( Σ − 1 / 2 x t ) ⊤ ) Σ − 1 / 2 x t = Σ − 1 / 2 x t + w t 2 Σ − 1 / 2 x t = ( 1 + w t 2 ) Σ − 1 / 2 x t \begin{aligned} (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top) \Sigma^{-1/2}x_t&=\Sigma^{-1/2}x_t+w_t^2\Sigma^{-1/2}x_t\\ &=(1+w_t^2)\Sigma^{-1/2}x_t \end{aligned} (I+Σ1/2xt(Σ1/2xt))Σ1/2xt=Σ1/2xt+wt2Σ1/2xt=(1+wt2)Σ1/2xt因此 ( 1 + w t 2 ) (1+w_t^2) (1+wt2)为矩阵 ( I + Σ − 1 / 2 x t ( Σ − 1 / 2 x t ) ⊤ ) (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top) (I+Σ1/2xt(Σ1/2xt))的特征值,且其它特征值为1,所以 det ⁡ ( I + Σ − 1 / 2 x t ( Σ − 1 / 2 x t ) ⊤ ) = ( 1 + w t 2 ) \det (I+\Sigma^{-1/2}x_t(\Sigma^{-1/2}x_t)^\top)=(1+w_t^2) det(I+Σ1/2xt(Σ1/2xt))=(1+wt2)

利用公式三有 ∑ t = 0 T − 1 R e g r e t t 2 ≤ 4 β T ∑ t = 0 T − 1 min ⁡ ( w t 2 , 1 ) ≤ 8 β T ∑ t = 0 T − 1 ln ⁡ ( 1 + w t 2 ) = 8 β T ln ⁡ det ⁡ Σ T − 1 det ⁡ Σ 0 \sum_{t=0}^{T-1}Regret_t^2\leq4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)\leq 8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2)=8\beta_T\ln\frac{\det \Sigma_{T-1}}{\det\Sigma_0} t=0T1Regrett24βTt=0T1min(wt2,1)8βTt=0T1ln(1+wt2)=8βTlndetΣ0detΣT1

3.2.4 公式四:协反差矩阵特征值、行列式的关系

对于任意 t < T t<T t<T的序列 x 0 , . . . , x T − 1 , ∥ x t ∥ 2 ≤ B x_0,...,x_{T-1},\|x_t\|_2\leq B x0,...,xT1,xt2B,则有 ln ⁡ ( det ⁡ Σ T − 1 / det ⁡ Σ 0 ) = ln ⁡ det ⁡ ( I + 1 λ ∑ t = 0 T − 1 x t x t ⊤ ) ≤ d ln ⁡ ( 1 + T B 2 d λ ) \ln \left(\operatorname{det} \Sigma_{T-1} / \operatorname{det} \Sigma_{0}\right)=\ln \operatorname{det}\left(I+\frac{1}{\lambda} \sum_{t=0}^{T-1} x_{t} x_{t}^{\top}\right) \leq d \ln \left(1+\frac{T B^{2}}{d \lambda}\right) ln(detΣT1/detΣ0)=lndet(I+λ1t=0T1xtxt)dln(1+dλTB2)

记得 x t ∈ R d x_t\in \mathbb R^d xtRd,令矩阵 ∑ t = 0 T − 1 x t x t ⊤ \sum_{t=0}^{T-1} x_{t} x_{t}^{\top} t=0T1xtxt的特征值为 σ 1 , . . . , σ d \sigma_1,...,\sigma_d σ1,...,σd,因此有
∑ i = 1 d σ i = trace [ ∑ t = 0 T − 1 x t x t ⊤ ] = ∑ t = 0 T − 1 x t ⊤ x t ≤ T B 2 \sum_{i=1}^d\sigma_i=\text{trace}[\sum_{t=0}^{T-1} x_{t} x_{t}^{\top}]=\sum_{t=0}^{T-1} x_{t}^{\top}x_{t}\leq TB^2 i=1dσi=trace[t=0T1xtxt]=t=0T1xtxtTB2

最后一步的不等式主要套determinant的运算和算术-几何均值不等式
ln ⁡ det ⁡ ( I + 1 λ ∑ t = 0 T − 1 x t x t ⊤ ) = ln ⁡ ( ∏ i = 1 d ( 1 + σ i / λ ) ) = d ln ⁡ ( ∏ i = 1 d ( 1 + σ i / λ ) ) 1 / d ≤ d ln ⁡ ( 1 d ∑ i = 1 d ( 1 + σ i λ ) ) = d ln ⁡ ( 1 + ∑ i = 1 d σ i d λ ) ≤ d ln ⁡ ( 1 + T B 2 d λ ) \begin{aligned} \ln\det (I+\frac{1}{\lambda}\sum_{t=0}^{T-1}x_tx_t^\top)&=\ln \Big(\prod_{i=1}^d(1+\sigma_i/\lambda)\Big)\\ &=d\ln \Big(\prod_{i=1}^d(1+\sigma_i/\lambda)\Big)^{1/d}\\ &\leq d\ln \Big(\frac{1}{d}\sum_{i=1}^d(1+\frac{\sigma_i}{\lambda})\Big)\\ &=d\ln\Big(1+\frac{\sum_{i=1}^d \sigma_i}{d\lambda}\Big)\\ &\leq d\ln\Big(1+\frac{TB^2}{d\lambda}\Big) \end{aligned} lndet(I+λ1t=0T1xtxt)=ln(i=1d(1+σi/λ))=dln(i=1d(1+σi/λ))1/ddln(d1i=1d(1+λσi))=dln(1+dλi=1dσi)dln(1+dλTB2)

利用公式四完成最后一步放缩,整体有
R e g r e t T ≤ T ∑ t = 0 T − 1 R e g r e t t 2 ≤ T × 4 β T ∑ t = 0 T − 1 min ⁡ ( w t 2 , 1 ) ≤ T × 8 β T ∑ t = 0 T − 1 ln ⁡ ( 1 + w t 2 ) = 8 β T ln ⁡ det ⁡ Σ T − 1 det ⁡ Σ 0 ≤ T × 8 d β T ln ⁡ ( 1 + T B 2 d λ ) \begin{aligned} Regret_T&\leq \sqrt{T \sum_{t=0}^{T-1}Regret_t^2}\\ &\leq\sqrt{T\times4\beta_T \sum_{t=0}^{T-1}\min(w_t^2,1)}\\ &\leq \sqrt{T\times8\beta_T\sum_{t=0}^{T-1} \ln(1+w_t^2)=8\beta_T\ln\frac{\det \Sigma_{T-1}}{\det\Sigma_0}}\\ &\leq\sqrt{T\times 8d\beta_T \ln\Big(1+\frac{TB^2}{d\lambda}\Big)} \end{aligned} RegretTTt=0T1Regrett2 T×4βTt=0T1min(wt2,1) T×8βTt=0T1ln(1+wt2)=8βTlndetΣ0detΣT1 T×8dβTln(1+dλTB2)

β T = σ 2 ( 2 + 4 d ln ⁡ ( 1 + T B 2 W 2 d ) + 8 ln ⁡ ( 4 / δ ) ) \beta_T=\sigma^2(2+4d\ln(1+\frac{TB^2W^2}{d})+8\ln(4/\delta)) βT=σ2(2+4dln(1+dTB2W2)+8ln(4/δ))可得最终的Regret Bound,有 1 − δ 1-\delta 1δ的概率,存在一个常数 c c c对于所有 T > 0 T>0 T>0有: R e g r e t T ≤ c σ T ( d ln ⁡ ( 1 + T B 2 W 2 d σ 2 ) + ln ⁡ ( 4 / δ ) ) Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big) RegretTcσT (dln(1+dσ2TB2W2)+ln(4/δ))

总结

  1. 现在问题的规模是相对比较小的,其中Multi-armed Bandit可由该MDP表述 M = { s 0 , a 1 , . . . , a K , H = 1 , R } \mathcal M=\{s_0,a_1,...,a_K,H=1,R\} M={s0,a1,...,aK,H=1,R},Linear Bandit则为 M = { s 0 , x t , H = 1 , R } \mathcal M=\{s_0,x_t,H=1,R\} M={s0,xt,H=1,R}
  2. 与valued-based中generative model的假设不同点仅仅在于奖励函数 R R R是未知的,只能通过与环境交互观测到奖励,而不能在任意的 ( s , a ) (s,a) (s,a)直接拿到 r ( s , a ) r(s,a) r(s,a),因此需要探索与利用的策略,与环境进行交互
  3. 评估探索与利用策略的指标是Regret,目的是在有限交互次数下 t = 0 , . . . , T − 1 t=0,...,T-1 t=0,...,T1使得总Regret最小,其中MAB的 R e g r e t T = T μ ⋆ − ∑ t = 0 T − 1 μ I t Regret_T=T\mu^\star-\sum_{t=0}^{T-1}\mu_{I_t} RegretT=Tμt=0T1μIt,Linear Bandit的 R e g r e t T = T ( μ ⋆ ) ⊤ x ⋆ − ∑ t = 0 T − 1 ( μ ⋆ ) ⊤ x t Regret_T=T(\mu^\star)^\top x^\star-\sum_{t=0}^{T-1}(\mu^\star)^\top x_t RegretT=T(μ)xt=0T1(μ)xt
  4. MAB对应的经典算法UCB如下:
    1. 对于 t = 0 , . . . , T − 1 : t=0,...,T-1: t=0,...,T1:
    2. 选择第t时刻的动作为: I t = arg max ⁡ i ∈ [ K ] ( μ ^ t ( i ) + ln ⁡ K T / δ N t ( i ) ) I_t=\argmax_{i\in [K]}\Big(\hat \mu_t(i)+\sqrt{\frac{\ln KT/\delta}{N_t(i)}}\Big) It=i[K]argmax(μ^t(i)+Nt(i)lnKT/δ )其中 N t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) N_t(i)=\sum_{\tau=0}^{t-1}\text{I}(I_{\tau}=i) Nt(i)=τ=0t1I(Iτ=i)为t时刻之前选择了动作 i i i的次数,是一个关于t的变量 μ ^ t ( i ) = ∑ τ = 0 t − 1 I ( I τ = i ) r τ N t ( i ) \hat \mu_t(i)=\sum_{\tau=0}^{t-1}\frac{\text{I}(I_{\tau}=i)r_\tau}{N_t(i)} μ^t(i)=τ=0t1Nt(i)I(Iτ=i)rτ为执行动作 i i i观察到的奖励 r τ r_\tau rτ的empirical mean
    3. 理论上界 R e g r e t T ≤ 8 ln ⁡ ( K T / δ ) K T Regret_T\leq8\sqrt{\ln (KT/\delta)} \sqrt{KT} RegretT8ln(KT/δ) KT
  5. Linear Bandit对应的算法LinUCB如下:
    1. 输入 λ , β t \lambda,\beta_t λ,βt
    2. 对于 t = 0 , 1 , . . . , T − 1 t=0,1,...,T-1 t=0,1,...,T1
      • 在第t步选择执行动作 x t = arg max ⁡ x ∈ X max ⁡ μ ∈ B a l l t μ ⊤ x x_t=\argmax_{x\in \mathcal X} \max_{\mu\in Ball_t}\mu^\top x xt=xXargmaxμBalltmaxμx
      • 观察到新的样本 x t , r t x_t,r_t xt,rt
      • 更新 B a l l t + 1 Ball_{t+1} Ballt+1
    3. 理论上界 R e g r e t T ≤ c σ T ( d ln ⁡ ( 1 + T B 2 W 2 d σ 2 ) + ln ⁡ ( 4 / δ ) ) Regret_T\leq c\sigma\sqrt{T}\Big(d\ln(1+\frac{TB^2W^2}{d\sigma^2})+\ln(4/\delta)\Big) RegretTcσT (dln(1+dσ2TB2W2)+ln(4/δ))
  6. 这还仅仅在同一状态 s 0 s_0 s0下做的动作 a 0 a_0 a0(无论离散or连续),如果交互的动作 a 0 a_0 a0会改变当前状态 s 0 s_0 s0,会发生转移 P ( s 1 ∣ s 0 , a 0 ) P(s_1|s_0,a_0) P(s1s0,a0),那又如何分析呢?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值