研究强化学习时看到的一个问题
网上有很多解决方法,但是大家好像找不到这个问题具体是什么...
多臂老虎机问题是概率论和决策中的经典问题。
- 有K台老虎机。每台老虎机的拉杆都被视为一个“手臂”(因此一台老虎机有时被称为单臂老虎机)。
- 设置进行 T 次迭代,每次迭代中赌徒都会选择一只手臂来“拉”,并通过执行该动作获得奖励。
- 每次拉动手臂都会给出随机奖励,并且每个手臂都有一个未知但固定的预期奖励。例如,A臂的预期奖励可能为 0.3,A臂的每次拉动都会有70%的概率获得0奖励,30%的概率获得1奖励。
- 决策者的目标是最大化总奖励。
我们将会从赌徒的角度研究如何做最好地权衡。
在尝试次数有限的情况下
一方面,赌徒可以利用他们过去的经验来拉动看似平均回报较高的“手臂”。然而,由于赌徒认知是不准确(由于尝试的组合太少而无法对平均奖励进行可靠的估计),看起来不错的“手臂”实际上可能不是最理想的。为了避免这种情况,赌徒必须通过拉动其他(看似较差的)“手臂”来进行探索,以收集更多有关它们的信息。
例如,假设有两个“手臂”,赌徒拉动“手臂A” 两次,获得的平均奖励为 0.7,拉动手臂 B 一次,获得的平均奖励为 0.5。决策者应该继续拉动“手臂A”还是尝试“手臂B” ?这里的不确定性是赌徒并不真正知道不同的选择之间的预期回报。一方面,赌徒按照现有的证据倾向于“手臂A”可能比“手臂B” 更好。另一方面,“手臂B” 只被拉动过一次,万一它接下来的平均收益更高呢?
有人会说我们多试几次就好了,由于大数定律,在独立同分布随机变量序列的情况下,随着样本量的增加,样本均值将趋于真实均值的规律。
但是我们往往不能做这么多尝试,例如下面一些场景
临床试验:两种治疗效果未知。选择哪一个?试验失败的代价极大,往往不能进行多次测试
这就使得多臂老虎机问题有了衍生的意义
以上就是多臂老虎机问题
等我学明白了强化学习再来做些解释