2.1 A k-armed Bandit Problem

考虑如下问题:有k个不同的选择(或者说动作)摆在你的面前,你需要不断重复地选择其中一个,每次你选择其中一个之后,会根据你选择的动作给你一个数值奖励,这个数值奖励符合正态分布。你的目标是在经过一定的次数后,比如1000次后,获得的期望奖励之和最大。

这就是原始形式的K摇臂游戏机问题,以模拟一种投币游戏机命名,它是只有一个摇臂的,而不是k个摇臂。每次选择一个动作就像拉下游戏机上的某个摇臂(拉杆),奖励就是中奖之后的回报(这种游戏机是,每次投一块钱,如果中奖了游戏机会吐出来一定数量的硬币,如果没中奖游戏机就吞掉了你的筹码——嗷呜)。随着动作选择的不断重复,你要把你的动作集中到奖励最高的拉杆上去,来最大化你的奖励。另一种类比是:一个医生在面对一些列重症患者的时候如何选择治疗方案。每一种治疗方案的选择都是一个动作,每一个奖励是病人活下来了或者恢复健康了。

而我们今天要讨论的K摇臂游戏机问题就是上述问题的泛化,但在本书中我们只讨论其简化形式。


 在我们的K摇臂游戏机问题中,每一个动作都有一个期望或者说平均奖励(就是当这个动作被选择了的话,会有什么样的奖励,奖励的平均值是固定的),称之为该动作的value值是动作奖励的平均/期望值)。记在时间步长t时选择的动作为A_t,其对应的奖励为R_t. 那么一个随机动作a的值,表示为q_*(a),即若a被选中,其期望奖励为:q_*(a)\doteq \mathbb{E}[R_t|A_t=a].

对上述公式的理解是,a是一个动作,这个动作每次被采取后会有个对应的奖励,但是这个奖励值是随机的,只是符合一定的随机分布情况,即n次采样平均值是固定的,这个值就是这个动作a的value,记作q_*(a),是个固定值。期望值就是采样次数无限多的平均值。

如果知道了每个动作的对应值,那么这个k摇臂游戏机问题就非常容易解决了:你只需要永远拉下值最高的那根拉杆即可。我们假设你并不确切的知道每个动作的值,但是你可以有一些预估。将每个时间步长t下对动作a的估计值记为Q_t(a),我们希望Q_t(a)尽可能的接近q_*(a)。(q_*(a)是奖励期望的真实值,Q_t(a)是t时刻对奖励期望的估计值,优化目标是使估计值随着时间的推移逐渐收敛到真实值附近。

如果持续预估动作的值,那么在任何时刻,起码有一个动作的值的估计是最大的,我们把这个动作称作贪婪动作。当你选择了这个动作,就是说你利用了当前对所有动作的值的认知(你知道这个动作是当前所有动作中最优的,并选择了它,就是利用了现有的知识)。如果你反其道而行之,选择了一个非贪婪动作,那么你就是在探索,因为探索可以提升对非贪婪动作值的估计。

利用是在某一步中最大化期望奖励应该采取的方法,但是探索是在长期可能产生更大奖励应该采取的方法。例如,假设一个贪婪动作的值已经确定了,而几个其他动作的值虽然差不多确定了,但是还是有不确定性。这种不确定性是指它们中起码有一个比贪婪动作更好,但是你不知道是哪一个。如果你有很多步骤去选择动作,那么最好探索一下非贪婪动作,虽然这会在一个步骤中降低奖励值,但是在长期来看,因为你发现了更好的动作,奖励值会逐渐增大。因为你不能在一个步骤中同时使用“利用”和“探索”,因此他们之间(exploitation and exploration)存在矛盾。

在每个特定的例子中,是利用好还是探索好,取决于一个复杂的方法,需要考虑估计值的精确性,不确定性,以及剩余步骤的数量。对特定的k摇臂游戏机问题,以及相关问题,都有一系列的复杂方法去平衡探索和利用的关系。然而,其中的大多数方法都对稳定性及先验知识有强假设(strong assumptions),这些假设在应用到我们接下来要讨论的完全强化学习问题中时,要么是悖论,要么不可能实现。而当他们的假设不成立时,这些方法的最优性和有界损失几乎无法保证。

在这本书中,我们不考虑如何用一种复杂的方式来平衡探索和利用,我们只考虑如何平衡他们。在这一章,我们提出了一些简单的用于平衡探索和利用的方法,以证明他们的表现比纯利用的方法要好。这种平衡探索与利用的需求是强化学习的特色,而简化形式的k摇臂游戏机问题可以让我们更清晰地看到这一点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值