多臂老虎机简介(Multi-Armed Bandit, MAB)

原创

已于 2023-06-22 10:51:38 修改 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

于 2023-06-20 20:43:54 首次发布

文章介绍了多臂老虎机问题作为强化学习的基础，强调在未知环境中平衡探索和利用的重要性。讨论了两种算法：简单的先探索、后利用算法和ϵ-Greedy算法。前者通过预设探索阶段来估计拉杆价值，后者在每一步都有一定概率随机选择以保持探索。文章还涉及了算法性能分析，特别是懊悔界的计算和优化。

文章目录

Introduction
多臂老虎机问题
- 问题介绍
- 问题的数学描述
基于估计价值的算法

Introduction

多臂老虎机(Multi-Armed Bandit, MAB)问题常常是学习强化学习(Reinforcement Learning, RL)所遇到的第一个问题。由于没有状态信息(State)，只有动作(Action)和对应的奖励(Reward)，多臂老虎机问题实际上是一个简单版的强化学习问题，可以算是“在和环境交互中学习”的最基础的形式。虽然这个问题简单，但是却被广泛应用于例如广告推荐等应用中，时至今日依然有很多研究者针对K臂老虎机问题进行研究（当然了，现在研究的问题都不是最基础的Bandit问题了，都是什么Multiplayer bandits之类的复杂问题）。搞明白这个最基础的问题和对应的算法，能够让你对强化学习的概念有进一步的理解，最重要的是理解探索(exploration)和应用(exploiation)的平衡问题，为后面更加复杂的强化学习问题和算法打下基础。
PS：本文假定你已经对强化学习的基本概念有所了解。如果你对强化学习一无所知的话，建议还是先看看基本概念，了解强化学习想要解决的问题是什么以及一些基本术语（比如什么叫Reward，Regret又是个什么东西等等）。

多臂老虎机问题

问题介绍

在多臂老虎机问题中，有一个拥有K个拉杆的老虎机，每一个拉杆都对应于一个关于奖励的分布 $\mathcal{R}$ 。在每一个时间 $t$ ，我们拉动其中的一个拉杆，就可以从该拉杆对应的奖励分布中得到一个即时奖励 $r_t$ 。我们的问题是，在每个拉杆的奖励分布我们都不知道的情况下，从零开始尝试，终极目标是使得我们在总共操作 $T$ 次拉杆后获得尽可能大的累计奖励(Cumulative Reward)。由于每个拉杆的奖励分布是未知的，因此我们面临着一个“探索拉杆的奖励分布”以及“根据已有的信息选择获得奖励最大的拉杆”的权衡问题。而我们的目标是设计一个合适的策略来实现我们的终极目标。

问题的数学描述

假定总共有 $K$ 个拉杆并且每次只能拉动其中的某一个。我们记在任意一个 $t < T$ 的时间时采取的动作(拉动某一个拉杆的行为)为 $a_t\in \mathcal{A}$ ，代表拉动了某一个具体的拉杆，其中 $\mathcal{A}=\{a_1,\ldots,a_K\}$ 为动作集合。在拉动了某一个拉杆之后，我们会得到一个即时的奖励反馈 $r_t\sim\mathcal{R}(r\mid a_t)$ ，在这里我们假定 $r_t\in[0,1]$ 。多臂老虎机的目标为最大化一个总的时间步 $T$ 内累积的奖励： $\max \sum_{t=1}^{T}r_t$ 。
除了最大化累计奖励之外，另一个考虑的角度是最小化累计懊悔(Cumulative Regret)。对于任意一个动作 $a$ ，我们定义其期望奖励为 $Q(a)=\mathbb{E}_{r\sim\mathcal{R}(\cdot\mid a)}[r]\in[0,1]$ ，该期望奖励通常也被叫做这个动作的价值(Value)。于是，至少存在一个拉杆，其价值不小于其他任意一个拉杆，我们将该最优拉杆记为 $a^\star$ ，其对应的最优价值记为 $Q^\star=\max_{a\in\mathcal{A}}Q(a)$ 。随后我们定义懊悔(Regret)为拉动当前选择的拉杆的价值与最优拉杆对应的价值的差距，即 $R(a_t)=Q^\star-Q(a_t)$