2.1 A k-armed Bandit Problem

最新推荐文章于 2024-05-14 18:26:39 发布

eowyn0406

最新推荐文章于 2024-05-14 18:26:39 发布

阅读量1.2k

点赞数 4

分类专栏：强化学习文章标签：强化学习 RL

本文链接：https://blog.csdn.net/eowyn0406/article/details/89674931

版权

强化学习专栏收录该内容

11 篇文章 3 订阅

订阅专栏

考虑如下问题：有k个不同的选择（或者说动作）摆在你的面前，你需要不断重复地选择其中一个，每次你选择其中一个之后，会根据你选择的动作给你一个数值奖励，这个数值奖励符合正态分布。你的目标是在经过一定的次数后，比如1000次后，获得的期望奖励之和最大。

这就是原始形式的K摇臂游戏机问题，以模拟一种投币游戏机命名，它是只有一个摇臂的，而不是k个摇臂。每次选择一个动作就像拉下游戏机上的某个摇臂（拉杆），奖励就是中奖之后的回报（这种游戏机是，每次投一块钱，如果中奖了游戏机会吐出来一定数量的硬币，如果没中奖游戏机就吞掉了你的筹码——嗷呜）。随着动作选择的不断重复，你要把你的动作集中到奖励最高的拉杆上去，来最大化你的奖励。另一种类比是：一个医生在面对一些列重症患者的时候如何选择治疗方案。每一种治疗方案的选择都是一个动作，每一个奖励是病人活下来了或者恢复健康了。

而我们今天要讨论的K摇臂游戏机问题就是上述问题的泛化，但在本书中我们只讨论其简化形式。

在我们的K摇臂游戏机问题中，每一个动作都有一个期望或者说平均奖励（就是当这个动作被选择了的话，会有什么样的奖励，奖励的平均值是固定的），称之为该动作的值value（值是动作奖励的平均/期望值）。记在时间步长时选择的动作为 A_t ，其对应的奖励为 R_t . 那么一个随机动作的值，表示为 q_*(a) ，即若a被选中，其期望奖励为： $q_*(a)\doteq \mathbb{E}[R_t|A_t=a]$ .

（对上述公式的理解是，a是一个动作，这个动作每次被采取后会有个对应的奖励，但是这个奖励值是随机的，只是符合一定的随机分布情况，即n次采样平均值是固定的，这个值就是这个动作a的value，记作，是个固定值。期望值就是采样次数无限多的平均值。）

如果知道了每个动作的对应值，那么这个k摇臂游戏机问题就非常容易解决了：你只需要永远拉下值最高的那根拉杆即可。我们假设你并不确切的知道每个动作的值，但是你可以有一些预估。将每个时间步长下对动作的估计值记为 Q_t(a) ，我们希望 Q_t(a) 尽可能的接近 q_*(a) 。（是奖励期望的真实值，是t时刻对奖励期望的估计值，优化目标是使估计值随着时间的推移逐渐收敛到真实值附近。）

如果持续预估动作的值，那么在任何时刻，起码有一个动作的值的估计是最大的，我们把这个动作称作贪婪动作。当你选择了这个动作，就是说你利用了当前对所有动作的值的认知（你知道这个动作是当前所有动作中最优的，并选择了它，就是利用了现有的知识）。如果你反其道而行之，选择了一个非贪婪动作，那么你就是在探索，因为探索可以提升对非贪婪动作值的估计。

利用是在某一步中最大化期望奖励应该采取的方法，但是探索是在长期可能产生更大奖励应该采取的方法。例如，假设一个贪婪动作的值已经确定了，而几个其他动作的值虽然差不多确定了，但是还是有不确定性。这种不确定性是指它们中起码有一个比贪婪动作更好，但是你不知道是哪一个。如果你有很多步骤去选择动作，那么最好探索一下非贪婪动作，虽然这会在一个步骤中降低奖励值，但是在长期来看，因为你发现了更好的动作，奖励值会逐渐增大。因为你不能在一个步骤中同时使用“利用”和“探索”，因此他们之间（exploitation and exploration）存在矛盾。

在每个特定的例子中，是利用好还是探索好，取决于一个复杂的方法，需要考虑估计值的精确性，不确定性，以及剩余步骤的数量。对特定的k摇臂游戏机问题，以及相关问题，都有一系列的复杂方法去平衡探索和利用的关系。然而，其中的大多数方法都对稳定性及先验知识有强假设（strong assumptions），这些假设在应用到我们接下来要讨论的完全强化学习问题中时，要么是悖论，要么不可能实现。而当他们的假设不成立时，这些方法的最优性和有界损失几乎无法保证。

在这本书中，我们不考虑如何用一种复杂的方式来平衡探索和利用，我们只考虑如何平衡他们。在这一章，我们提出了一些简单的用于平衡探索和利用的方法，以证明他们的表现比纯利用的方法要好。这种平衡探索与利用的需求是强化学习的特色，而简化形式的k摇臂游戏机问题可以让我们更清晰地看到这一点。