《Reinforcement Learning: An Introduction》强化学习导论英文教材自译中文版Chapter 2

《Reinforcement Learning: An Introduction》强化学习导论英文教材自译中文版Chapter 2

Chapter 2 “多臂”赌博机

强化学习区别于其他学习方法最重要的特征在于:它使用训练信息来评估(evaluate)采取的行动而非直接给出正确行动的指令(instruct)。因此需要进行广泛的探索,即:明确地搜索好的行为。单独的评估反馈会表明某个行为有多好,而非它是否可能是最好或最差的。从另一方面来看,单独的指令反馈给出应当采取的正确行为,它与实际采取的行为无关。这种反馈是监督学习的基础,涉及绝大多数关于模式分类、人工神经网络和系统识别的研究。在这两种纯粹的反馈形式中,它们有着本质的区别:评估反馈完全依赖于采取的行动,而指令反馈与实际采取的行动无关。
在这一章,我们在一种简单的设定下——不涉及在超过一种情景下学习如何行动——从评估的方面来研究强化学习。这种无关联性(nonassociative)的设定在探讨评估反馈的准备工作中尽量地避免了完全强化学习问题的复杂性。研究此类案例能让我们更清楚的了解评估反馈和指令反馈的区别以及二者的结合之处。
我们在此探讨一种特殊的无关联性评估反馈问题:K臂赌博机问题的简化版。我们使用这个问题来介绍一些将在后面章节运用于完全强化学习问题的基本学习方法。在本章的结尾,我们会讨论一种更加接近完全强化学习问题的情景,即:当赌博机问题具有关联性时应当如何采取行动。

2.1 K臂赌博机问题

考虑下述学习问题:你面临着k个不同的行动选择,每一次都要从中选择一个行动,在每次选择之后你会收到一个数值型的奖励,该奖励从与你所选行动相关的静态概率分布中产生,你的目标是最大化一段时期内的累积奖励的期望,例如,1000次行动选择或时间步(time step)。
这是k臂赌博机问题的原型,它的命名类似于一种投币机或”单臂赌博机“,但它有k个摇臂而不是一个。每一次行动选择类似于拉动一次投币机的摇臂,而奖励相当于获得的收益。通过重复的行动选择,你可以找到奖励最高的摇臂使收益最大化。另一个类似的问题是一名医生为一些重病患者选择实验性的治疗方案。每一次行动即治疗方案的选择,每一次行动后获得的奖励是病人是否反应良好。如今,“赌博机问题”这一术语被用来概括类似如上所述的所有问题,但本书中我们仅参考它的最简形式。
在我们的k臂赌博机问题中,每一个行动都具有一个期望的或平均的奖励值;让我们称之为行动的价值(value)。我们使用 At 来表示在时刻 t 时选择的行动,对应的奖励为Rt。在任一行动 a 之后获得的价值用 q ∗ ( a ) q_*(a) q(a)来表示,它是 a 被选择后获得的奖励的期望:
q ∗ ( a ) = E [ R t ∣ A t = a ] q_*(a)=E[R_t|A_t=a] q(a)=E[RtAt=a]
如果你准确获悉了每一个行动的价值,那么将轻易地解决k臂赌博机问题:你只需选择价值最高的行动。我们假设你无法确切的获悉行动的价值,但可以估计它们。我们使用 Qt(a) 来表示在时刻 t 时采取行动 a 的价值估计。我们希望 Qt(a) 尽可能地接近 q*(a) 。
如果你维护所有行动价值的估计,那么在任意时刻一定存在至少一个价值估计最高的行动。我们称之为贪婪(greedy)行动。当你在这些行动中选择时,我们说你正在利用(exploiting)你的关于这些行动价值的知识。如果你选择了一个非贪婪(nongreedy)行动,我们说你正在探索(exploration),因为这能使你改进关于非贪婪行动的价值估计。为了在某一步最大化期望奖励,利用是必要的,但从长远角度来看,探索可能会产生更高的累积奖励。举例而言,假设一个贪婪行动的价值是确切已知的,而其他行动的价值估计几乎和它一样好但伴随着很大的不确定性,不确定性意味着这些行动中至少有一个比贪婪行动更好,但是你并不知道是哪一个。如果你还有许多时间可以用来做行动选择,那么探索这些非贪婪行动并发现哪一个行动比贪婪行动更好是可取的。在探索过程中,短期内的奖励是较低的,但从长远的角度来看回报更高,因为在发现更好的行动之后,你可以多次的利用它们。因为在任何时刻不可能同时进行探索和利用,所以必须考虑到探索和利用之间的矛盾。
在任意案例中,探索和利用的对比以一种复杂的形式依赖于价值估计和准确度、不确定性和剩余的时间。对于k臂赌博机及相关问题,有多种精细的方法来平衡探索与利用。然而,它们中的大多数都要求问题具有静态性与先验知识的强假设,后续章节中讨论的运用于实际的完全强化学习问题是很容易违背这些假设的。当这些方法的理论性假设无法运用时,其最优性便难以得到保证。
在本书中我们不需要仔细地研究探索与利用之间的平衡。在本章中我们提出几种简单的关于k臂赌博机的平衡方法,展示它们相较于仅利用方法的优越性。权衡探索与利用是强化学习中特有的挑战;k臂赌博机问题的简易性允许我们能向读者清晰地展示它们。

2.2 行动-价值法

我们来进一步探讨行动-价值法的内在机理,该方法使用行动价值的估计值来进行行动选择。注意,一个行动的真实价值是当其被选择后获得的平均奖励。一种自然的估计方式是对真实接收到的累积奖励值求平均:
在这里插入图片描述
式中,1 predicate 为0-1变量,如果 predicate 为真则为1,否则为0。如果分母为0,则定义Qt(a)为某一缺省值。当分母趋于无穷大时,根据大数定律,Qt(a)收敛于q*(a)。我们称其为估计行动价值的采样平均法(sample-average method),因为每一个估计值都是相关奖励样本的平均值。当然,这只是其中一种方法,而且也非最佳方法。尽管如此,让我们暂时只考虑这一简单的估计方法,先处理如何使用价值估计来进行行动选择的问题。
最简单的行动选择规则是选择一个具有最大价值估计的行动,即在之前章节中定义的贪婪行动。如果存在多个贪婪行动则任选其一。我们将贪婪行动选择方法写为:
在这里插入图片描述
式中,argmaxa 表示使后续表达式达到最大值的行动a。贪婪行动选择总是利用当前的知识去最大化即时奖励;它不会去关注表面上较差但也许实际上更好的行动。另一种简单的方法是在大多数时间都采取贪婪行动,但偶尔以一个较小的概率ε等可能地随机选择其他所有行动而不考虑行动价值估计。我们称此类方法为近似贪婪行动选择规则——ε-greedy法。此类方法的优点在于,随着步数增加至无限大,所有行动都会被采样无数次,因此保证了所有的Qt(a)均收敛于q*(a)。这就暗示了选择到最优行动的概率将收敛为等于或大于1-ε,即近乎于必然。然而这只是渐进的收敛保证,在实际应用中的效果缺乏验证。

2.3 10-臂赌博机案例

为了粗略地验证贪婪和近似贪婪行动价值法的相对有效性,我们将在一系列案例中定量地比较它们。这是一组由2000个随机生成的10臂赌博机问题组成的集合。对于每一个赌博机问题,如图2.1所示,每一个行动的价值,q*(a),a = 1, …, 10,通过均值为0,方差为1的高斯分布随机生成。然后,当一个学习方法在此问题中于时间t选择了一个行动aAt时,环境返回一个通过均值为q*(At),方差为1的正态分布随机生成的奖励值Rt。这些分布见于图2.1中的灰色区域。我们将这些测试任务集合称为10臂赌博机测试集。对于任一学习方法,我们都可以将其应用于任一多臂赌博机测试案例,根据至少1000步的表现来衡量并改进其性能。这通常被称为1次测试(run)。重复进行2000次独立的测试,每一次测试选择一个不同的赌博机测试案例,我们可以获得学习算法的性能估计。
在这里插入图片描述
图2.1 一个10-臂赌博机示例。10个行动的真实价值 q*(a) 采用一个均值为0,方差为1的正太分布随机生成,而后,它们的实际价值采用均值为 q*(a) ,方差为1的正太分布随机生成,如图中的灰色区域所示。

图2.2在如上所述的10-臂赌博机测试集上比较了贪婪算法和2种不同的ε-greedy算法(ε=0.01和ε=0.1)。所有方法均使用采样平均技术来估计所有行动的价值。位于上方的图显示了随着经验增加,期望奖励也在不断增长。贪婪算法的期望奖励的增长速度略快于其他算法,但其最终停滞在较低的水平。它最终获得每步平均奖励仅为1,相比之下,最佳的每步平均奖励可能达到1.55。从长远来看,贪婪算法的表现略逊于其他算法,因为它常常会陷入某些次优的行动。位于下方的图显示贪婪算法在任务开始的前1/3时就找到了最优行动,但在剩余的2/3的时间里,它的关于最优行动的初始采样是持续的、令人失望的。ε-greedy算法最终表现更棒,因为它们始终在探索和提升识别最佳行动的几率。ε=0.1的ε-greedy算法进行了更多的探索,因此通常更早的发现最优行动,但在整个时间域中其选择最优行动的几率低于91%。ε=0.01的ε-greedy算法改进的速度更慢,但在图中显示的2种评价指标上表现的比ε=0.1的算法更好。根据时间的推移逐渐减少ε的值也是一种可能的平衡探索-利用矛盾的方式。
在这里插入图片描述
图2.2 ε-greedy行动价值算法在10-臂赌博机测试集上的平均性能评价。这些数据由2000次在不同案例上的独立测试并求取平均值后获得。所有算法使用采样平均技术进行行动价值的估计。
ε-greedy算法与贪婪算法相比所取得的优势与具体任务有关。例如,假设奖励的方差更大:为10而不为1。那么基于噪声更大的奖励,算法需要采取更多的探索才能发现最优行动,ε-greedy算法的优势应该会更大;从另一方面来看,如果奖励的方差为0,贪婪算法在1次搜索后即可获得所有行动的真实价值,在此案例中贪婪算法的实际表现可能会更优,因为它将迅速发现最优行动并永不探索。但是,如果我们弱化其他的一些假设,即使是确定性的案例,探索也具有相当大的优势。例如,假设赌博机问题是非静态的,即:真实的行动价值随时间的变化而变化。在这个例子中,为了确定一个非贪婪行动没有变得优于贪婪行动,即使是确定性的案例,探索亦是必须的。正如我们将在后续的章节中所展示的,非静态环境在强化学习中是最常见的。即使底层的基础任务是静态的和确定性的,学习者们也会面临一系列随着学习的进行和智能体策略变化而变化的类赌博机决策任务。强化学习要求算法在探索和利用之间找到令人满意的平衡点。

2.4 递增式实现

我们目前所讨论的行动价值方法均使用采样平均法来估计行动价值。我们现在来讨论一个问题:这些平均值如何能通过高计算效率的方式来获得,更具体地说,通过固定的内存和每步固定的计算量。
为了简化,我们从单个行动开始讨论。用 Ri 表示在第 i 次选择该行动后获得的奖励,用 Qn 表示它被选择 n-1 次后的行动价值估计,我们可以将其简写为:

Q n = R 1 + R 2 + . . . + R n − 1 n − 1 Q_n=\frac{R_1+R_2+...+R_{n-1}}{n-1} Qn=n1R1+R2+...+Rn1

上式的实现要求必须维护一个关于所有获得奖励的记录,然后当需要该估计值时执行该式的计算。但是,如果照此进行,那么内存和计算量的需求将随着获得奖励的增加而增加。每一个新获得的奖励均需要额外的内存来记录它和额外的计算量来计算分子上的求和公式。
如你所想,这些并不是必须的。我们很容易地就可以设计一种仅需少量内存和计算量就可以改进平均值的递增公式来处理每一个新获得的奖励。给定 Qn 和第n个奖励, Rn ,所有n个奖励的平均值可由下式计算:
在这里插入图片描述
即使n=1时,上式亦有效,对任意的 Q1Q2 = R1。这种实现方式仅仅要求为 Qn 和n分配内存,以及为每一个新获得的奖励执行式(2.3)中的少量计算。下面的框图展示了在一个完整的赌博机案例中使用增量式计算采样平均和ε-greedy行动选择方法的伪代码。函数 bandit(a) 表示采取一个行动并获得一个对应的奖励。
在这里插入图片描述
(2.3)中展示的改进规则是一种在本书中频繁出现的形式。该一般形式为
在这里插入图片描述
表达式[ Target - OldEstimate ] 代表一种估计误差。通过向 “Target ” 前进一步可以减少该误差。该目标表示一个理想的前进方向,尽管它可能存在偏差。例如,在上例中目标为第n个奖励。
注意,在上述递增式中的步长参数( StepSize )会随着步数的变化而变化。在处理行动a的第n个奖励时,算法的步长参数为1/n。在本书中,我们使用符号 α 来表示步长参数,或者更一般地,使用 αt(a) 。

2.5 探讨一个非静态问题

目前为止我们讨论的均值方法对于静态的赌博机问题是适宜的,即获得奖励的概率不随时间变化的赌博机问题。如前所述,我们常常会遇到非静态的强化学习问题。在这些案例中,相对于很久以前获得的奖励,给予最近获得的奖励更高的权重是有意义的。一种流行的实现方式是使用一个固定的步长参数。例如,用于改进过去n-1个奖励的平均值 Qn 的增量式(2.3)可以表示为:
在这里插入图片描述
其中步长参数 α ∈ [ 0 , 1 ] \alpha \in [0, 1] α[0,1] 为一个定值。这使得 Qn 成为初始价值估计 Q1 和过去所有奖励的加权平均:
在这里插入图片描述
我们称其为加权平均是因为权重的和 ( 1 − α ) n + ∑ i = 1 n α ( 1 − α ) n − i = 1 (1-\alpha)^n+\sum^n_{i=1}\alpha(1-\alpha)^{n-i}=1 (1α)n+i=1nα(1α)ni=1,其正确性读者可以自行检验。注意给予奖励 R i R_i Ri的权重项 α ( 1 − α ) n − i \alpha(1-\alpha)^{n-i} α(1α)ni依赖于观察到它之前所获得的的奖励数量 n − i n-i ni。由于数值 1 − α 1-\alpha 1α小于1,给予 R i R_i Ri的权重随着中间的奖励数量的增加而减少。实际上, 该权重根据 1 − α 1-\alpha 1α的指数呈指数衰减。(假如 1 − α = 0 1-\alpha=0 1α=0,那么所有的权重都将施加给最终的奖励 R n R_n Rn,因为惯例 0 0 = 1 0^0=1 00=1)。因此,该式在某些文献中被称为指数近期加权平均( e x p o n e n t i a l exponential exponential r e c e n c y − w e i g h t e d recency-weighted recencyweighted a v e r a g e average average)。
有时为每一步指定不同的步长参数是很方面的。令 α n ( a ) \alpha_n(a) αn(a)表示用来处理在第 n n n次使用行动 a a a后获得的奖励时使用的步长参数。我们已经提到过,在采样平均法中 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1,根据大数定理,它可以保证收敛至真实的行动价值。但是当然,对于序列 { α n ( a ) } \{\alpha_n(a)\} {αn(a)}中的所有选择,收敛性并不能得到保证(译者注,此处可能说的是取 α n ( a ) \alpha_n(a) αn(a) [ 0 , 1 ] [0, 1] [0,1]中的任意常数的情况)。在随机近似理论中的一个著名论断向我们展示了以概率为1保证收敛所必需的条件为:
在这里插入图片描述
第一个条件保证步骤足够大来克服任意的初始条件或随机波动。第二个条件保证最终所有步骤都足够小来确保收敛。
注意,对于采样平均法这两个条件都满足, α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1,但对于固定步长参数 α n ( a ) = α \alpha_n(a)=\alpha αn(a)=α,第二个条件并不满足,表示估计值不会完全收敛,而是随最近获得的奖励不停波动。如上所述,这正是在非静态环境中真正需要的,而且问题是强化学习中非静态环境是最为常见的。此外,满足收敛条件(2.7)的步长参数序列往往导致收敛速度缓慢或者为了获得满意的收敛速度需要相当长时间的精调等问题。因此它们通常运用于理论工作中而很少运用于实际和案例分析。

2.6 乐观的初始价值

到目前为止,我们讨论的所有方法均在某种程度上依赖于初始的行动价值估计, Q 1 ( a ) Q_1(a) Q1(a)。从统计学的角度来看,这些方法会因为它们的初始估计而产生偏差。对于采样平均法,一旦所有行动被至少选择一次后偏差即会消失,然而,对于固定步长参数 α \alpha α的方法而言,偏差是始终存在的,尽管如(2.6)式所体现的,会随着时间推移而不断减小。在实际运用中,这种偏差通常不会产生太大的问题,反而有时正是我们所需要的。缺点在于初始估计作为一系列的参数,必须由人来指定,即使是将它们简单地设置为0。优点在于它们提供了一种简单的方法给所有行动的期望奖励提供一些先验的知识。
初始行动价值还可以作为一种简便方法用来鼓励探索。假设在之前的10-臂赌博机测试案例中,我们不将所有行动的初始价值设置为0,而是+5。回顾该问题中 q ∗ ( a ) q_*(a) q(a)是通过均值为0,方差为1的正太分布随机生成的。一个+5的初始估计显然太过于乐观了,但这种乐观鼓励行动价值方法去执行更多的探索。无论在一开始选择哪个行动,所获得的奖励总是低于其初始估计;由于对所获奖励的“失望”,学习器会转而选择其他的行动。其结果为在价值估计收敛之前,所有行动都会被选择多次。即使总是使用贪婪算法来选择行动,具有乐观初始价值的系统仍然会执行相当多的探索工作。
图2.3展示了在10-臂赌博机测试集上对所有行动使用 Q 1 ( a ) = 5 Q_1(a)=5 Q1(a)=5的贪婪算法的性能,为了作比较,还同时测试了 Q 1 ( a ) = 0 Q_1(a)=0 Q1(a)=0 ε − g r e e d y \varepsilon-greedy εgreedy算法。最初,乐观的方法表现的更差,因为它执行的探索更多,但最终它表现的更好,因为随时间推移探索的次数逐渐降低。我们称这种鼓励探索的技术为乐观的初始价值( o p t i m i s t i c optimistic optimistic i n i t i a l initial initial v a l u e s values values)。我们认为这是一个在静态问题上非常有效的小技巧,但它并非一种鼓励探索的通用的有效方法。例如,它不适合非静态问题,因为它对于探索的驱动本质上只是暂时的。如果任务会实时变化,那么需要在过程中重启探索,此方法便会失效。的确,任何仅仅考虑提供一些特殊初始条件的方法无法解决一般的非静态问题。实验的初始阶段仅仅会发生一次,因此我们不应在它们身上浪费太多时间。该评判标准同样适用于采样平均法,它也将初始阶段视为一个特殊的事件,用相等的权重平均所有随后获得的奖励。尽管如此,所有这些方法都是非常简便的,它们中的一种——或几种的混合体——在实际运用中通常是有效的。在本书的其余部分我们将会频繁的使用这些简单的探索技术。
在这里插入图片描述
图2.3 乐观的初始行动价值估计在10-臂赌博机测试集上的运行效果。所有方法都使用固定的步长参数, α = 0.1 \alpha=0.1 α=0.1

2.7 置信上界行动选择

由于行动价值估计的准确度不确定,因此探索是必需的。从目前来看,贪婪行动是最佳的,但实际上其他行动很有可能表现更佳。 ε − g r e e d y \varepsilon-greedy εgreedy行动选择会强制尝试非贪婪的行动,但是对那些近乎贪婪或特别不确定的行动没有明显的区分或偏好。同时考虑非贪婪行动的估计值与最大估计值之间的差距和这些估计值的不确定性,进而根据它们实际可能成为最佳行动的潜力来进行选择也许是一种更好的方法。一种有效的实现方法是根据下式来选择行动:
在这里插入图片描述
ln ⁡ t \ln t lnt表示 t t t 的自然对数, N t ( a ) N_t(a) Nt(a)表示在 t t t时刻之前行动 a a a 被选择的次数,数值 c > 0 c>0 c>0用来控制探索的程度。如果 N t ( a ) = 0 N_t(a)=0 Nt(a)=0,那么 a a a 被视为一个最大化的行动 (译者注:即 arg max ⁡ \argmax argmax函数所返回的行动,亦为当前应选择的行动)。
这种方法被称为置信上界( u p p e r upper upper c o n f i d e n c e confidence confidence b o u n d bound bound——UCB)行动选择,其中的平方根项衡量了行动 a a a 价值估计的不确定性。因此,被最大化的数值是行动 a a a 可能的真实价值的上限,参数 c c c 决定了置信水平。每次 a a a 被选择时不确定性都会降低: N t ( a ) N_t(a) Nt(a)增加,由于它位于分母,所以代表不确定性的项式整体减少。另一方面,每次除了 a a a 的行动被选择时, t t t 增加而 N t ( a ) N_t(a) Nt(a) 不变;因为 t t t 位于分子,所以不确定性估计增加。这里使用的自然对数使 t t t 的增加量随时间推移不断减小,但始终不会抵达上界;所有行动最终都会被选择,但是随着时间推移,那些价值估计较低或已经被选择多次的行动的被选择概率将会越来越低。
UCB在10-臂赌博机测试集上的运行结果如图2.4所示。UCB在此表现更优,但同 ε − g r e e d y \varepsilon-greedy εgreedy方法相比,很难将其拓展到更一般的强化学习问题设定中去。其中一处困难在于它无法处理非静态问题;此类问题往往需要比2.5节中更加复杂的方法。另一处困难在于它不适用于状态空间较大的问题,特别是当使用本书 P a r t Part Part 2 2 2中介绍的函数近似法时。在这些更高级的设定中,UCB行动选择的思想通常是不实用的。
在这里插入图片描述
图2.4 UCB行动选择在10-臂赌博机测试集上的性能。如图所示,除了最初在尚未尝试的行动中随机选择的 k k k步以外,UCB通常比 ε − g r e e d y \varepsilon-greedy εgreedy表现更佳。

2.8 梯度赌博机算法

目前,在本章中我们已经考虑几种估计行动价值并用这些估计来选择行动的方法。这是一种好的方法,但并非唯一。在本节我们考虑为每一个行动 a a a 学习一个数值型偏好,用 H t ( a ) H_t(a) Ht(a) 表示。行动的偏好越大,其被选择的概率就越大,但是偏好相较于奖励具有不同的意义。只有一个行动对其他行动的相对偏好能影响行动选择的概率分布;如果我们对所有行动的偏好都加上1000,行动选择的概率分布是不变的,其由一个 s o f t − m a x soft-max softmax分布即吉布斯 ( G i b b s Gibbs Gibbs) 或波茨曼 ( B o l t z m a n n Boltzmann Boltzmann) 分布决定,如下式所述:
在这里插入图片描述
在此我们引入了一个新的有用的符号, π t ( a ) \pi_t(a) πt(a),表示在 t t t 时刻采取行动 a a a 的概率。所有行动初始的偏好相同(例如, H 1 ( a ) = 0 H_1(a)=0 H1(a)=0 ),因此所有行动被选择的概率也相同。
对于这些设定条件,存在一种基于随机梯度下降思想的学习算法。在每一步选择行动 A t A_t At 并获得奖励 R t R_t Rt 之后,行动偏好由下式更新:
在这里插入图片描述
α > 0 \alpha>0 α>0为步长参数, R ‾ t ∈ R \overline{R}_t\in\mathbb{R} RtR表示所有时刻 t t t 之前(含时刻 t t t)的奖励的平均值。 R ‾ t \overline{R}_t Rt项被用来作为一条和当前奖励进行对比的基准线。如果奖励高于基准线,那么未来选择行动 A t A_t At 的概率将会上升;如果奖励低于基准线,则概率将会下降。未被选择的行动与之相反。
图2.5显示了梯度赌博机算法在一个均值为+4,方差为0的10-臂赌博机测试集上的性能。由于奖励基准线项的可以立即适应新的水平,因此所有奖励的变化对该算法完全不会产生影响。但是如果省略基准线的设置(即式(2.12)中 R ‾ t \overline{R}_t Rt恒等于0),算法的性能将会大幅度下降,如图中所示。
在这里插入图片描述

2.9 关联搜索(上下文赌博机)

目前为止在本章中我们仅仅考虑了非关联任务,即无需根据不同的情况选择不同行动的任务。在这些任务中,当任务是静态时学习器只需要尝试找到一个最佳行动;或者在非静态任务中追踪随时间变化的最佳行动即可。然而,在一般的强化学习任务中往往存在多个情景,我们的目标是学习一个策略:一个由情景到行动的最佳映射。为了将来解决完整的问题,我们首先简要地讨论从非关联任务过渡到关联任务的最简方法。
例如,假设存在多个不同的 k k k-臂赌博机任务,每一步你都会遇到一个被随机选中的任务。因此,每一步的赌博机任务都会发生随机变化。这相当于你面对一个单个的、非静态的 k k k-臂赌博机任务,其真实的行动价值会根据步数随机的变化。你可以尝试本章中所描述的处理非静态任务的任意方法,但这些方法不可能产生较好的效果,除非行动价值变化的很缓慢。然而,现在假设当为你选定一个赌博机任务时,你会获得一些关于其性质的区分性线索(但不包含它任何行动的价值)。可能你面对的是一台真正的老虎机,当它的价值函数改变时其显示的颜色也会随之改变。现在你可以学习一个策略,通过你看到的颜色信号,为这个任务和当面对这个任务时应采取的最优行动建立关联关系——例如,如果是红色,选择1号摇臂;如果是绿色,则选择2号摇臂。相较于那些无法获得任何区分性线索的任务,你可以通过正确的策略获得更好的收益。
这是关联搜索( a s s o c i a t i v e associative associative s e a r c h search search)任务的一个示例,如此命名是因为它既涉及到搜索( s e a r c h search search)最佳行动所必需的试错学习,还涉及到为最佳行动和其对应的特定情景建立关联( a s s o c i a t i v e associative associative)。在某些文献中它还被称为上下文赌博机( c o n t e x t u a l b a n d i t s contextual bandits contextualbandits)。关联搜索任务是多臂赌博机问题和完全的强化学习问题的中间体。它们和完全的强化学习相似之处在于涉及到学习一个策略;和多臂赌博机的相似之处是每一个行动仅影响即刻获得的奖励。如果允许行动影响下一个情景及奖励,那么我们将获得完全的强化学习问题,我们将在下一个章节介绍并于本书的其余部分探讨该问题。

2.10 总结

在本章中我们提出了几种平衡探索与利用的简单方法。 ε − g r e e d y \varepsilon-greedy εgreedy方法在一小部分时间里随机选择行动,而UCB通过确定地选择那些目前为止收到较少采样样本的行动来实现探索。梯度赌博机算法不计算行动价值的估计,而是使用soft-max分布以一种梯度的、概率分布的方式计算行动的偏好,并倾向于那些偏好值大的行动。简单地以乐观的方式初始化价值估计使贪婪方法也能进行相当程度的探索。
一个很自然的问题是这些方法谁最好。尽管这个问题很难回答,我们还是可以将它们所有都运行在10-臂赌博机测试集上评估并比较它们的性能。一个复杂点是它们都具有一个参数;为了获得有意义的比较结果,我们有必要将它们的性能视为一个关于它们自身参数的函数。目前为止我们的图片均为每一个算法及其参数设置生成了一条学习曲线( l e a r n i n g learning learning c u r v e curve curve),以显示它们随时间变化的学习过程。如果我们为所有参数设置的所有算法都生成一条学习曲线,图片会变得异常复杂和拥挤而难以清晰地比较,因此我们使用算法在1000步内获得的平均价值来总结其学习曲线;该数值与学习曲线下方的面积呈正比。图2.6用上述评价标准比较了本章中各种赌博机算法的性能。这种图被称为参数研究( p a r a m e t e r parameter parameter s t u d y study study)。注意,参数的值以2为差值变化,并标注于横轴之上。每一种算法的性能显示出了倒U型特征;所有算法都在适中的,而非最大或最小的参数条件下获得最佳性能。在评价一种方法时,我们不仅应当注意在它最佳参数设定时的性能表现,还应当关注它对于参数值的敏感性。所有这些方法都相当的不灵敏,在大约相差一个数量级的一系列参数值上表现良好。综上,在该问题上,UCB的表现最佳。
在这里插入图片描述
图2.6 针对本章中描述的不同赌博机方法的参数研究。每一个点表示采用一种参数的特定算法在1000步以内获得的平均奖励。
在我们看来,尽管本章中描述的这些方法非常简单,目前仍然相当值得使用。许多更加精细的方法由于其复杂性和难以满足的假设条件而难以适用于我们真正致力的完全强化学习问题。从第5章开始我们会提出一些解决完全强化学习问题的学习算法,它们部分使用了本章中探讨的简单方法。
尽管本章中的简单方法可能是目前我们能用的最佳方法,但是它们远远没有使平衡探索和利用的问题得到完全满意的解决。
在k-臂赌博机问题中平衡探索与利用的一种经过充分研究的方法是计算被称为 G i t t i n s Gittins Gittins i n d i c e s indices indices的特殊函数。该函数对于一种特定的赌博机问题提供了更加通用的最优求解方法,但是此方法假设可能出现问题的先验分布是已知的。不幸的是,这种方法的理论和计算可扩展性似乎都没有推广到我们在本书其余部分中考虑的完全强化学习问题。
贝叶斯( B a y e s i a n Bayesian Bayesian)方法为所有行动价值假设一个已经的初始概率分布,然后在每一步中准确的更新这个分布(假设真实的行动价值是静态的)。一般而言,更新计算是非常复杂的,但对于某些特殊的分布(被称为共轭先验( c o n j u g a t e conjugate conjugate p r i o r prior prior)),更新计算是简单的。一种可能性是,根据每个步骤的动作是最佳动作的后验概率来选择它们。 这种方法有时称为后验采样( p o s t e r i o r posterior posterior s a m p l i n g sampling sampling)或汤普森采样( T h o m p s o n Thompson Thompson s a m p l i n g sampling sampling),其执行效果基本与本章介绍的最佳无分布(distribution-free)方法相似。
在贝叶斯方法的设定中,计算探索和利用之间的最优平衡甚至都是可能的。我们可以为任意可能的行动计算每一个可能获得奖励的概率和行动价值的后验概率。这种不断变化的分布构成了问题的信息状态。给定一个1000步的范围,就可以考虑它们所有可能的行动、奖励、下一个行动及下一个奖励等等。一旦给定这些假设,奖励和每一个可能的事件链的发生概率均可以确定,决策者只需选择最优结果即可。但是概率树的增长可能会是极为迅速的;即使只有2个行动和2个奖励,树也会具有 2 2000 2^{2000} 22000个叶节点。执行如此规模庞大的精确计算一般是不可行的,但存在一些有效的近似计算方法。这类方法有效地将赌博机问题转化为完全强化学习问题的一个实例。最后,我们也许可以使用本书 p a r t part part 2 2 2中提出的近似强化学习方法来实现最优求解,但这个研究内容已经超出本书的讨论范围。

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值