论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model

Contextual Multi-armed Bandit Algorithm for Semiparametric(半参数) Reward Model

摘要:

事实证明,上下文多臂匪徒(MAB)算法有望在顺序决策任务(例如新闻推荐系统,网页广告放置算法和移动健康)中最大化累积reward。但是,大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛,半参数奖励模型提出了一种新的上下文MAB算法。与考虑相同模型的两个替代算法相比,所提出的方法具有更少的限制,更易于实现且速度更快,同时实现了严格的后悔上限。

即提出一种新型MAB算法(宽松、半参数的reward模型)——支持非平稳态

一、introduction

MAB问题会公式化顺序决策问题——选择action(arm),最后最大化积累的rewards

不断选择一个arm,同时收到对应的rewards,学习者会学习和收集信息,然后积累信息,最后根据现有的信息去选择最优的arm

之前的算法都是假设reward的期望和上下文具有是不变线性关系———会严格限制现实中reward的定义

本文中,

提出新型的上下文MAB算法——对rewards的分布会有宽松的假设

该假设可以针对不稳定性的reward包含加法截距项+原来的时不变线性项);该截距项随时间变化,但不取决于action

#### 本文贡献:
  • 为非平稳半参数奖励模型提出了一种新的MAB算法。与先前的工作相比,所提出的方法具有更少的限制,更易于实现并且计算速度更快。
  • 证明了所提方法的regret的高概率上限与线性奖励模型的汤普森采样算法的阶数相同。
  • 为回归参数提出了一个新的估计量,而无需额外的调整参数,并证明了它比现有估计量更快地收敛到真实参数。
  • 仿真研究表明,在大多数情况下,该方法的累积奖励比假定相同非平稳奖励模型的现有方法的增长快。

二、Preliminaries

1.MAB setting

learner会在每个t重复地面临N个可选择的actions(N个arms),第i个arm(i=1,…,N)会获得随机的reward r i ( t ) r_i(t) ri(t)(对应未知均值 θ i ( t ) \theta_i(t) θi(t)

上下文MAB中:
  • 每个arm i对应有限维上下文向量 b i ( t ) b_i(t) bi(t)
  • reward的均值 θ i ( t ) \theta_i(t) θi(t)依赖于 b i ( t ) b_i(t) bi(t):即 θ i ( t ) = θ t ( b i ( t ) ) \theta_i(t)=\theta_t(b_i(t)) θi(t)=θt(bi(t)),其中 θ t ( . ) \theta_t(.) θt(.)是一个任意函数
  • 选择一个arm: a ( t ) a(t) a(t),对应reward: r a ( t ) ( t ) r_{a(t)}(t) ra(t)(t)
  • 最优的arm: a ∗ ( t ) : = argmax ⁡ 1 < i < N { θ i ( t ) } = argmax ⁡ 1 < i < N { θ t ( b i ( t ) ) } a^{*}(t):=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_i(t)\right\}=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_{t}\left(b_{i}(t)\right)\right\} a(t):=1<i<Nargmax{θi(t)}=1<i<Nargmax{θt(bi(t))}
  • regrets(t)

2.线性上下文MAB问题

假设reward的均值 θ t ( b i ( t ) ) \theta_t(b_i(t)) θt(bi(t)) b i ( t ) b_i(t) bi(t)成线性关系:

θ t ( b i ( t ) ) = b i ( t ) T μ , i = 1 , . . . , N \theta_t(b_i(t))=b_i(t)^T\mu,i=1,...,N θt(bi(t))=bi(t)Tμ,i=1,...,N
其中 μ \mu μ是未知的。

1)上置信界算法UCB
  • 选择reward中具有最高UCB的arm。
  • 由于UCB反映了当前对reward及其不确定性的估计,因此该算法在开发和探索之间取得平衡。
  • UCB算法的成功取决于第i个arm对应的reward(= b i ( t ) T μ b_i(t)^T\mu bi(t)Tμ(这个一般指reward的均值))的有效置信上限 U i ( t ) U_i(t) Ui(t)
2)Thompson sampling
  • 基于贝叶斯思想的简单启发式方法
  • 最优arm: a ∗ ( t ) = argmax ⁡ 1 < i < N b i ( t ) T μ ~ ( t ) a^*(t)=\underset{1<i<N}{\operatorname{argmax}}{b_i(t)^T\tilde\mu(t)} a(t)=1<i<Nargmaxbi(t)Tμ~(t); μ ~ ( t ) \tilde\mu(t) μ~(t) μ \mu μ后验分布的采样值。
3)对抗性(adversarial)上下文MAB
  • 没有对 θ ( . ) \theta(.) θ(.)函数形式有任何假设
  • r i ( t ) r_i(t) ri(t)的分布允许随时间变化,并且它也可以根据历史记录自适应地变化
  • 但是很难获得低的regret
4)EXP4.P算法

三、Semiparametric(半参数) contextual MAB

  • 简单线性上下文MAB和复杂对抗MAB之间的中间方案

1.半参数加成reward模型

  • 历史信息 H t − 1 = { a ( τ ) , r a ( τ ) ( τ ) , b i ( τ ) , i = 1 , … , N , τ = 1 , … , t − 1 } \mathcal{H}_{t-1}=\left\{a(\tau), r_{a(\tau)}(\tau), b_{i}(\tau), i=1, \ldots, N, \tau=1, \ldots, t-1\right\} Ht1={a(τ),ra(τ)(τ),bi(τ),i=1,,N,τ=1,,t1}
  • F t − 1 \mathcal{F}_{t-1} Ft1是历史信息 H t − 1 \mathcal{H}_{t-1} Ht1和t时刻上下文 b i ( t ) b_i(t) bi(t)的并集, F t − 1 = { H t − 1 , b i ( t ) , i = 1 , … , N } \mathcal{F}_{t-1}=\left\{\mathcal{H}_{t-1}, b_{i}(t), i=1, \ldots, N\right\} Ft1={Ht1,bi(t),i=1,,N}
  • 给定 F t − 1 \mathcal{F}_{t-1} Ft1,假设reward的期望 r i ( t ) r_i(t) ri(t)可以=不随时间变化的线性分量 b i ( t ) T μ b_i(t)^T\mu bi(t)Tμ,取决于于action)+ 随时间变化的非参数分量 v ( t ) v(t) v(t),可能取决于 F t − 1 \mathcal{F}_{t-1} Ft1,但不取决于action),即:

E [ r i ( t ) ∣ F t − 1 ] = b i ( t ) T μ + v ( t ) \mathbb{E}\left[r_{i}(t) | \mathcal{F}_{t-1}\right]=b_{i}(t)^{T} \mu+v(t) E[ri(t)Ft1]=bi(t)Tμ+v(t)

  • v ( t ) v(t) v(t)的分布没有做任何假设,除了 ∣ v ( t ) ∣ ≤ 1 |v(t)|\leq 1 v(t)1:1)如果 v ( t ) = 0 v(t)=0 v(t)=0,线性上下文MAB;2)否则, v ( t ) v(t) v(t)也取决于action,对抗上下文MAB。在新闻推荐实例中, v ( t ) v(t) v(t)可以代表用户单击任务文章的基线趋势,不是所有用户都会去点击。
  • 最优的action a ∗ ( t ) a^*(t) a(t)不依赖于 v ( t ) v(t) v(t)
  • regret也不会依赖 v ( t ) v(t) v(t)

r e g r e t ( t ) = b a ∗ ( t ) ( t ) T μ − b a ( t ) ( t ) T μ regret(t)=b_{a^*(t)}(t)^{T} \mu-b_{a(t)}(t)^{T} \mu regret(t)=ba(t)(t)Tμba(t)(t)Tμ

  • 注意: v ( t ) v(t) v(t)混淆了 μ \mu μ的估计。bandit问题的性质使得 v ( t ) v(t) v(t)和线性部分的区分变得特别困难,因为每个时间t只能进行一次观察。因此属于部分对抗性模型,而确定性算法(UCB算法等)对于这种模型被证明是无效的;因为 a ( t ) ∈ F t − 1 a(t)\in\mathcal{F}_{t-1} a(t)Ft1,如果 v ( t ) ∈ F t − 1 v(t)\in\mathcal{F}_{t-1} v(t)Ft1 v ( t ) = − b a ( t ) ( t ) T μ v(t)=-b_{a(t)}(t)^{T} \mu v(t)=ba(t)(t)Tμ,那么观察到的reward在所有 t = 1 , … , T t=1, \ldots, T t=1,,T时刻均为 r a ( t ) ( t ) = η a ( t ) ( t ) r_{a(t)}(t)=\eta_{a(t)}(t) ra(t)(t)=ηa(t)(t),算法无法学习 μ \mu μ.
  • 所有还是应该利用action选择的随机性

2.相关工作

1)action-centered TS algorithm
  • 假设第一个action为base action,对于这个基本action,对于所有t其上下文向量为 b 1 ( t ) = 0 d b_1(t)=0_d b1(t)=0d;其reward为 v ( t ) v(t) v(t)(随时间变化,以一定方式取决于过去信息)
  • 遵循随机TS算法的基本框架
  • 但是有两个阶段(stage):1)第一阶段以TS算法相同的方式在non-base action中选择一个action,设为 a ˉ ( t ) \bar{a}(t) aˉ(t);2)第二阶段,使用 μ ~ ( t ) \tilde\mu(t) μ~(t)的分布在 a ˉ ( t ) \bar{a}(t) aˉ(t)和base action中再一次选择。
  • 最后两个阶段结束后选择的action记为: a ( t ) a(t) a(t)
  • 在第二阶段中, a ( t ) = a ˉ ( t ) a(t)=\bar{a}(t) a(t)=aˉ(t)的概率可以由 μ ~ ( t ) \tilde\mu(t) μ~(t)的高斯分布计算:

P ( a ( t ) = a ˉ ( t ) ∣ F t − 1 , a ˉ ( t ) ) = 1 − ψ ( − b a ˉ ( t ) ( t ) T μ ^ ( t ) v s t , a ˉ ( t ) ( t ) ) \mathbb{P}\left(a(t)=\bar{a}(t) | \mathcal{F}_{t-1}, \bar{a}(t)\right)=1-\psi\left(\frac{-b_{\bar{a}(t)}(t)^{T} \hat{\mu}(t)}{v s_{t, \bar{a}(t)}(t)}\right) P(a(t)=aˉ(t)Ft1,aˉ(t))=1ψ(vst,aˉ(t)(t)baˉ(t)(t)Tμ^(t))
ψ ( . ) \psi(.) ψ(.)是标准高斯分布的概率密度函数。

3.提出的算法

提出一个新型的具有半参数reward模型的算法:
在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值