论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model

最新推荐文章于 2024-05-28 19:30:00 发布

Yolandalt7777777

最新推荐文章于 2024-05-28 19:30:00 发布

阅读量2.2k

点赞数

分类专栏：学习笔记机器学习文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/Yolandalt7777777/article/details/104114627

版权

学习笔记同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

机器学习

7 篇文章 1 订阅

订阅专栏

Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model

摘要：

事实证明，上下文多臂匪徒（MAB）算法有望在顺序决策任务（例如新闻推荐系统，网页广告放置算法和移动健康）中最大化累积reward。但是，大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛，半参数奖励模型提出了一种新的上下文MAB算法。与考虑相同模型的两个替代算法相比，所提出的方法具有更少的限制，更易于实现且速度更快，同时实现了严格的后悔上限。

即提出一种新型MAB算法（宽松、半参数的reward模型）——支持非平稳态

一、introduction

MAB问题会公式化顺序决策问题——选择action（arm），最后最大化积累的rewards

不断选择一个arm，同时收到对应的rewards，学习者会学习和收集信息，然后积累信息，最后根据现有的信息去选择最优的arm

之前的算法都是假设reward的期望和上下文具有是不变线性关系———会严格限制现实中reward的定义

本文中，

提出新型的上下文MAB算法——对rewards的分布会有宽松的假设

该假设可以针对不稳定性的reward包含加法截距项+原来的时不变线性项）；该截距项随时间变化，但不取决于action

#### 本文贡献：

为非平稳半参数奖励模型提出了一种新的MAB算法。与先前的工作相比，所提出的方法具有更少的限制，更易于实现并且计算速度更快。
证明了所提方法的regret的高概率上限与线性奖励模型的汤普森采样算法的阶数相同。
为回归参数提出了一个新的估计量，而无需额外的调整参数，并证明了它比现有估计量更快地收敛到真实参数。
仿真研究表明，在大多数情况下，该方法的累积奖励比假定相同非平稳奖励模型的现有方法的增长快。

二、Preliminaries

1.MAB setting

learner会在每个t重复地面临N个可选择的actions（N个arms）,第i个arm（i=1,…,N）会获得随机的reward $r_i(t)$ （对应未知均值 $\theta_i(t)$ ）

上下文MAB中：

每个arm i对应有限维上下文向量 $b_i(t)$
reward的均值 $\theta_i(t)$ 依赖于 $b_i(t)$ ：即 $\theta_i(t)=\theta_t(b_i(t))$ ，其中 $\theta_t(.)$ 是一个任意函数
选择一个arm: $a (t)$ ，对应reward： $r_{a(t)}(t)$
最优的arm: $a^{*}(t):=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_i(t)\right\}=\underset{1<i<N}{\operatorname{argmax}}\left\{\theta_{t}\left(b_{i}(t)\right)\right\}$
regrets(t)

2.线性上下文MAB问题

假设reward的均值 $\theta_t(b_i(t))$ 和 $b_i(t)$ 成线性关系：

$\theta_t(b_i(t))=b_i(t)^T\mu,i=1,...,N$
其中 $\mu$ 是未知的。

1）上置信界算法UCB

选择reward中具有最高UCB的arm。
由于UCB反映了当前对reward及其不确定性的估计，因此该算法在开发和探索之间取得平衡。
UCB算法的成功取决于第i个arm对应的reward（= $b_i(t)^T\mu$ (这个一般指reward的均值)）的有效置信上限 $U_i(t)$

2）Thompson sampling

基于贝叶斯思想的简单启发式方法
最优arm: $a^*(t)=\underset{1<i<N}{\operatorname{argmax}}{b_i(t)^T\tilde\mu(t)}$ ; $\tilde\mu(t)$ 是 $\mu$ 后验分布的采样值。

3）对抗性(adversarial)上下文MAB

没有对 $\theta(.)$ 函数形式有任何假设
$r_i(t)$ 的分布允许随时间变化，并且它也可以根据历史记录自适应地变化
但是很难获得低的regret

4）EXP4.P算法

三、Semiparametric(半参数) contextual MAB

简单线性上下文MAB和复杂对抗MAB之间的中间方案

1.半参数加成reward模型

历史信息 $\mathcal{H}_{t-1}=\left\{a(\tau), r_{a(\tau)}(\tau), b_{i}(\tau), i=1, \ldots, N, \tau=1, \ldots, t-1\right\}$
$\mathcal{F}_{t-1}$ 是历史信息 $\mathcal{H}_{t-1}$ 和t时刻上下文 $b_i(t)$ 的并集， $\mathcal{F}_{t-1}=\left\{\mathcal{H}_{t-1}, b_{i}(t), i=1, \ldots, N\right\}$
给定 $\mathcal{F}_{t-1}$ ，假设reward的期望 $r_i(t)$ 可以=不随时间变化的线性分量（ $b_i(t)^T\mu$ ,取决于于action）+ 随时间变化的非参数分量（ $v (t)$ ,可能取决于 $\mathcal{F}_{t-1}$ ，但不取决于action），即：

$\mathbb{E}\left[r_{i}(t) | \mathcal{F}_{t-1}\right]=b_{i}(t)^{T} \mu+v(t)$

$v (t)$ 的分布没有做任何假设，除了 $|v(t)|\leq 1$ :1）如果 $v (t) = 0$ ，线性上下文MAB；2）否则， $v (t)$ 也取决于action，对抗上下文MAB。在新闻推荐实例中， $v (t)$ 可以代表用户单击任务文章的基线趋势，不是所有用户都会去点击。
最优的action $a^*(t)$ 不依赖于 $v (t)$
regret也不会依赖 $v (t)$ ：

$regret(t)=b_{a^*(t)}(t)^{T} \mu-b_{a(t)}(t)^{T} \mu$

注意： $v (t)$ 混淆了 $\mu$ 的估计。bandit问题的性质使得 $v (t)$ 和线性部分的区分变得特别困难，因为每个时间t只能进行一次观察。因此属于部分对抗性模型，而确定性算法（UCB算法等）对于这种模型被证明是无效的；因为 $a(t)\in\mathcal{F}_{t-1}$ ,如果 $v(t)\in\mathcal{F}_{t-1}$ 且 $v(t)=-b_{a(t)}(t)^{T} \mu$ ，那么观察到的reward在所有 $\ldots, T$ 时刻均为 $r_{a(t)}(t)=\eta_{a(t)}(t)$ ，算法无法学习 $\mu$ .
所有还是应该利用action选择的随机性

2.相关工作

1）action-centered TS algorithm

假设第一个action为base action，对于这个基本action，对于所有t其上下文向量为 $b_1(t)=0_d$ ;其reward为 $v (t)$ （随时间变化，以一定方式取决于过去信息）
遵循随机TS算法的基本框架
但是有两个阶段（stage）：1）第一阶段以TS算法相同的方式在non-base action中选择一个action，设为 $\bar{a}(t)$ ;2)第二阶段，使用 $\tilde\mu(t)$ 的分布在 $\bar{a}(t)$ 和base action中再一次选择。
最后两个阶段结束后选择的action记为： $a (t)$
在第二阶段中， $a(t)=\bar{a}(t)$ 的概率可以由 $\tilde\mu(t)$ 的高斯分布计算：

$\mathbb{P}\left(a(t)=\bar{a}(t) | \mathcal{F}_{t-1}, \bar{a}(t)\right)=1-\psi\left(\frac{-b_{\bar{a}(t)}(t)^{T} \hat{\mu}(t)}{v s_{t, \bar{a}(t)}(t)}\right)$
$\psi(.)$ 是标准高斯分布的概率密度函数。

3.提出的算法

提出一个新型的具有半参数reward模型的算法：
在这里插入图片描述

Yolandalt7777777

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model

Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model摘要：事实证明，上下文多臂匪徒（MAB）算法有望在顺序决策任务（例如新闻推荐系统，网页广告放置算法和移动健康）中最大化累积reward。但是，大多数提出的上下文MAB算法都假定奖励和行为上下文之间存在线性关系。本文针对支持非平稳性的松弛，半参数...
复制链接

扫一扫