Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model
摘要:
事实证明,上下文多臂匪徒(MAB)算法有望在顺序决策任务(例如新闻推荐系统,网页广告放置算法和移动健康)中最大化累积reward。但是,大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛,半参数奖励模型提出了一种新的上下文MAB算法。与考虑相同模型的两个替代算法相比,所提出的方法具有更少的限制,更易于实现且速度更快,同时实现了严格的后悔上限。
即提出一种新型MAB算法(宽松、半参数的reward模型)——支持非平稳态
一、introduction
MAB问题会公式化顺序决策问题——选择action(arm),最后最大化积累的rewards
不断选择一个arm,同时收到对应的rewards,学习者会学习和收集信息,然后积累信息,最后根据现有的信息去选择最优的arm
之前的算法都是假设reward的期望和上下文具有是不变线性关系———会严格限制现实中reward的定义
本文中,
提出新型的上下文MAB算法——对rewards的分布会有宽松的假设
该假设可以针对不稳定性的reward包含加法截距项+原来的时不变线性项);该截距项随时间变化,但不取决于action
#### 本文贡献:
- 为非平稳半参数奖励模型提出了一种新的MAB算法。与先前的工作相比,所提出的方法具有更少的限制,更易于实现并且计算速度更快。
- 证明了所提方法的regret的高概率上限与线性奖励模型的汤普森采样算法的阶数相同。
- 为回归参数提出了一个新的估计量,而无需额外的调整参数,并证明了它比现有估计量更快地收敛到真实参数。
- 仿真研究表明,在大多数情况下,该方法的累积奖励比假定相同非平稳奖励模型的现有方法的增长快。
二、Preliminaries
1.MAB setting
learner会在每个t重复地面临N个可选择的actions(N个arms),第i个arm(i=1,…,N)会获得随机的reward r i ( t ) r_i(t) ri(t)(对应未知均值 θ i ( t ) \theta_i(t) θi(t))
上下文MAB中:
- 每个arm i对应有限维上下文向量 b i ( t ) b_i(t) bi(t)
- reward的均值 θ i ( t ) \theta_i(t) θi(t)依赖于 b i ( t ) b_i(t) bi(t):即 θ i ( t ) = θ t ( b i ( t ) ) \theta_i(t)=\theta_t(b_i(t)) θi(t)=θt(bi(t)),其中 θ t ( . ) \theta_t(.) θt(.)是一个任意函数
- 选择一个arm: a ( t ) a(t) a(t),对应reward: r a ( t ) ( t ) r_{a(t)}(t) ra(t)(t)
- 最优的arm: a ∗ ( t ) : = argmax 1 < i < N { θ i ( t ) } = argmax 1 < i < N { θ t ( b i ( t ) ) } a^{*}(t):=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_i(t)\right\}=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_{t}\left(b_{i}(t)\right)\right\} a∗(t):=1<i<Nargmax{θi(t)}=1<i<Nargmax{θt(bi(t))}
- regrets(t)
2.线性上下文MAB问题
假设reward的均值 θ t ( b i ( t ) ) \theta_t(b_i(t)) θt(bi(t))和 b i ( t ) b_i(t) bi(t)成线性关系:
θ
t
(
b
i
(
t
)
)
=
b
i
(
t
)
T
μ
,
i
=
1
,
.
.
.
,
N
\theta_t(b_i(t))=b_i(t)^T\mu,i=1,...,N
θt(bi(t))=bi(t)Tμ,i=1,...,N
其中
μ
\mu
μ是未知的。
1)上置信界算法UCB
- 选择reward中具有最高UCB的arm。
- 由于UCB反映了当前对reward及其不确定性的估计,因此该算法在开发和探索之间取得平衡。
- UCB算法的成功取决于第i个arm对应的reward(= b i ( t ) T μ b_i(t)^T\mu bi(t)Tμ(这个一般指reward的均值))的有效置信上限 U i ( t ) U_i(t) Ui(t)
2)Thompson sampling
- 基于贝叶斯思想的简单启发式方法
- 最优arm: a ∗ ( t ) = argmax 1 < i < N b i ( t ) T μ ~ ( t ) a^*(t)=\underset{1<i<N}{\operatorname{argmax}}{b_i(t)^T\tilde\mu(t)} a∗(t)=1<i<Nargmaxbi(t)Tμ~(t); μ ~ ( t ) \tilde\mu(t) μ~(t)是 μ \mu μ后验分布的采样值。
3)对抗性(adversarial)上下文MAB
- 没有对 θ ( . ) \theta(.) θ(.)函数形式有任何假设
- r i ( t ) r_i(t) ri(t)的分布允许随时间变化,并且它也可以根据历史记录自适应地变化
- 但是很难获得低的regret
4)EXP4.P算法
三、Semiparametric(半参数) contextual MAB
- 简单线性上下文MAB和复杂对抗MAB之间的中间方案
1.半参数加成reward模型
- 历史信息 H t − 1 = { a ( τ ) , r a ( τ ) ( τ ) , b i ( τ ) , i = 1 , … , N , τ = 1 , … , t − 1 } \mathcal{H}_{t-1}=\left\{a(\tau), r_{a(\tau)}(\tau), b_{i}(\tau), i=1, \ldots, N, \tau=1, \ldots, t-1\right\} Ht−1={a(τ),ra(τ)(τ),bi(τ),i=1,…,N,τ=1,…,t−1}
- F t − 1 \mathcal{F}_{t-1} Ft−1是历史信息 H t − 1 \mathcal{H}_{t-1} Ht−1和t时刻上下文 b i ( t ) b_i(t) bi(t)的并集, F t − 1 = { H t − 1 , b i ( t ) , i = 1 , … , N } \mathcal{F}_{t-1}=\left\{\mathcal{H}_{t-1}, b_{i}(t), i=1, \ldots, N\right\} Ft−1={Ht−1,bi(t),i=1,…,N}
- 给定 F t − 1 \mathcal{F}_{t-1} Ft−1,假设reward的期望 r i ( t ) r_i(t) ri(t)可以=不随时间变化的线性分量( b i ( t ) T μ b_i(t)^T\mu bi(t)Tμ,取决于于action)+ 随时间变化的非参数分量( v ( t ) v(t) v(t),可能取决于 F t − 1 \mathcal{F}_{t-1} Ft−1,但不取决于action),即:
E [ r i ( t ) ∣ F t − 1 ] = b i ( t ) T μ + v ( t ) \mathbb{E}\left[r_{i}(t) | \mathcal{F}_{t-1}\right]=b_{i}(t)^{T} \mu+v(t) E[ri(t)∣Ft−1]=bi(t)Tμ+v(t)
- v ( t ) v(t) v(t)的分布没有做任何假设,除了 ∣ v ( t ) ∣ ≤ 1 |v(t)|\leq 1 ∣v(t)∣≤1:1)如果 v ( t ) = 0 v(t)=0 v(t)=0,线性上下文MAB;2)否则, v ( t ) v(t) v(t)也取决于action,对抗上下文MAB。在新闻推荐实例中, v ( t ) v(t) v(t)可以代表用户单击任务文章的基线趋势,不是所有用户都会去点击。
- 最优的action a ∗ ( t ) a^*(t) a∗(t)不依赖于 v ( t ) v(t) v(t)
- regret也不会依赖 v ( t ) v(t) v(t):
r e g r e t ( t ) = b a ∗ ( t ) ( t ) T μ − b a ( t ) ( t ) T μ regret(t)=b_{a^*(t)}(t)^{T} \mu-b_{a(t)}(t)^{T} \mu regret(t)=ba∗(t)(t)Tμ−ba(t)(t)Tμ
- 注意: v ( t ) v(t) v(t)混淆了 μ \mu μ的估计。bandit问题的性质使得 v ( t ) v(t) v(t)和线性部分的区分变得特别困难,因为每个时间t只能进行一次观察。因此属于部分对抗性模型,而确定性算法(UCB算法等)对于这种模型被证明是无效的;因为 a ( t ) ∈ F t − 1 a(t)\in\mathcal{F}_{t-1} a(t)∈Ft−1,如果 v ( t ) ∈ F t − 1 v(t)\in\mathcal{F}_{t-1} v(t)∈Ft−1且 v ( t ) = − b a ( t ) ( t ) T μ v(t)=-b_{a(t)}(t)^{T} \mu v(t)=−ba(t)(t)Tμ,那么观察到的reward在所有 t = 1 , … , T t=1, \ldots, T t=1,…,T时刻均为 r a ( t ) ( t ) = η a ( t ) ( t ) r_{a(t)}(t)=\eta_{a(t)}(t) ra(t)(t)=ηa(t)(t),算法无法学习 μ \mu μ.
- 所有还是应该利用action选择的随机性
2.相关工作
1)action-centered TS algorithm
- 假设第一个action为base action,对于这个基本action,对于所有t其上下文向量为 b 1 ( t ) = 0 d b_1(t)=0_d b1(t)=0d;其reward为 v ( t ) v(t) v(t)(随时间变化,以一定方式取决于过去信息)
- 遵循随机TS算法的基本框架
- 但是有两个阶段(stage):1)第一阶段以TS算法相同的方式在non-base action中选择一个action,设为 a ˉ ( t ) \bar{a}(t) aˉ(t);2)第二阶段,使用 μ ~ ( t ) \tilde\mu(t) μ~(t)的分布在 a ˉ ( t ) \bar{a}(t) aˉ(t)和base action中再一次选择。
- 最后两个阶段结束后选择的action记为: a ( t ) a(t) a(t)
- 在第二阶段中, a ( t ) = a ˉ ( t ) a(t)=\bar{a}(t) a(t)=aˉ(t)的概率可以由 μ ~ ( t ) \tilde\mu(t) μ~(t)的高斯分布计算:
P
(
a
(
t
)
=
a
ˉ
(
t
)
∣
F
t
−
1
,
a
ˉ
(
t
)
)
=
1
−
ψ
(
−
b
a
ˉ
(
t
)
(
t
)
T
μ
^
(
t
)
v
s
t
,
a
ˉ
(
t
)
(
t
)
)
\mathbb{P}\left(a(t)=\bar{a}(t) | \mathcal{F}_{t-1}, \bar{a}(t)\right)=1-\psi\left(\frac{-b_{\bar{a}(t)}(t)^{T} \hat{\mu}(t)}{v s_{t, \bar{a}(t)}(t)}\right)
P(a(t)=aˉ(t)∣Ft−1,aˉ(t))=1−ψ(vst,aˉ(t)(t)−baˉ(t)(t)Tμ^(t))
ψ
(
.
)
\psi(.)
ψ(.)是标准高斯分布的概率密度函数。
3.提出的算法
提出一个新型的具有半参数reward模型的算法: