文章目录
Introduction
多臂老虎机(Multi-Armed Bandit, MAB)问题常常是学习强化学习(Reinforcement Learning, RL)所遇到的第一个问题。由于没有状态信息(State),只有动作(Action)和对应的奖励(Reward),多臂老虎机问题实际上是一个简单版的强化学习问题,可以算是“在和环境交互中学习”的最基础的形式。虽然这个问题简单,但是却被广泛应用于例如广告推荐等应用中,时至今日依然有很多研究者针对K臂老虎机问题进行研究(当然了,现在研究的问题都不是最基础的Bandit问题了,都是什么Multiplayer bandits之类的复杂问题)。搞明白这个最基础的问题和对应的算法,能够让你对强化学习的概念有进一步的理解,最重要的是理解探索(exploration)和应用(exploiation)的平衡问题,为后面更加复杂的强化学习问题和算法打下基础。
PS:本文假定你已经对强化学习的基本概念有所了解。如果你对强化学习一无所知的话,建议还是先看看基本概念,了解强化学习想要解决的问题是什么以及一些基本术语(比如什么叫Reward,Regret又是个什么东西等等)。
多臂老虎机问题
问题介绍
在多臂老虎机问题中,有一个拥有K个拉杆的老虎机,每一个拉杆都对应于一个关于奖励的分布 R \mathcal{R} R。在每一个时间 t t t,我们拉动其中的一个拉杆,就可以从该拉杆对应的奖励分布中得到一个即时奖励 r t r_t rt。我们的问题是,在每个拉杆的奖励分布我们都不知道的情况下,从零开始尝试,终极目标是使得我们在总共操作 T T T次拉杆后获得尽可能大的累计奖励(Cumulative Reward)。由于每个拉杆的奖励分布是未知的,因此我们面临着一个“探索拉杆的奖励分布”以及“根据已有的信息选择获得奖励最大的拉杆”的权衡问题。而我们的目标是设计一个合适的策略来实现我们的终极目标。
问题的数学描述
假定总共有 K K K个拉杆并且每次只能拉动其中的某一个。我们记在任意一个 t < T t<T t<T的时间时采取的动作(拉动某一个拉杆的行为)为 a t ∈ A a_t\in \mathcal{A} at∈A,代表拉动了某一个具体的拉杆,其中 A = { a 1 , … , a K } \mathcal{A}=\{a_1,\ldots,a_K\} A={
a1,…,aK}为动作集合。在拉动了某一个拉杆之后,我们会得到一个即时的奖励反馈 r t ∼ R ( r ∣ a t ) r_t\sim\mathcal{R}(r\mid a_t) rt∼R(r∣at),在这里我们假定 r t ∈ [ 0 , 1 ] r_t\in[0,1] rt∈[0,1]。多臂老虎机的目标为最大化一个总的时间步 T T T内累积的奖励: max ∑ t = 1 T r t \max \sum_{t=1}^{T}r_t max∑t=1Trt。
除了最大化累计奖励之外,另一个考虑的角度是最小化累计懊悔(Cumulative Regret)。对于任意一个动作 a a a,我们定义其期望奖励为 Q ( a ) = E r ∼ R ( ⋅ ∣ a ) [ r ] ∈ [ 0 , 1 ] Q(a)=\mathbb{E}_{r\sim\mathcal{R}(\cdot\mid a)}[r]\in[0,1] Q(a)=Er∼R(⋅∣a)[r]∈[0,1],该期望奖励通常也被叫做这个动作的价值(Value)。于是,至少存在一个拉杆,其价值不小于其他任意一个拉杆,我们将该最优拉杆记为 a ⋆ a^\star a⋆,其对应的最优价值记为 Q ⋆ = max a ∈ A Q ( a ) Q^\star=\max_{a\in\mathcal{A}}Q(a) Q⋆=maxa∈AQ(a)。随后我们定义懊悔(Regret)为拉动当前选择的拉杆的价值与最优拉杆对应的价值的差距,即 R ( a t ) = Q ⋆ − Q ( a t ) R(a_t)=Q^\star-Q(a_t) R(at)=Q

文章介绍了多臂老虎机问题作为强化学习的基础,强调在未知环境中平衡探索和利用的重要性。讨论了两种算法:简单的先探索、后利用算法和ϵ-Greedy算法。前者通过预设探索阶段来估计拉杆价值,后者在每一步都有一定概率随机选择以保持探索。文章还涉及了算法性能分析,特别是懊悔界的计算和优化。
最低0.47元/天 解锁文章
1357

被折叠的 条评论
为什么被折叠?



