多臂老虎机问题

研究强化学习时看到的一个问题

网上有很多解决方法,但是大家好像找不到这个问题具体是什么...

多臂老虎机问题是概率论和决策中的经典问题。

  1. 有K台老虎机。每台老虎机的拉杆都被视为一个“手臂”(因此一台老虎机有时被称为单臂老虎机)。
  2. 设置进行 T 次迭代,每次迭代中赌徒都会选择一只手臂来“拉”,并通过执行该动作获得奖励。
  3. 每次拉动手臂都会给出随机奖励,并且每个手臂都有一个未知但固定的预期奖励。例如,A臂的预期奖励可能为 0.3,A臂的每次拉动都会有70%的概率获得0奖励,30%的概率获得1奖励。
  4. 决策者的目标是最大化总奖励。

我们将会从赌徒的角度研究如何做最好地权衡。

在尝试次数有限的情况下

一方面,赌徒可以利用他们过去的经验来拉动看似平均回报较高的“手臂”。然而,由于赌徒认知是不准确(由于尝试的组合太少而无法对平均奖励进行可靠的估计),看起来不错的“手臂”实际上可能不是最理想的。为了避免这种情况,赌徒必须通过拉动其他(看似较差的)“手臂”来进行探索,以收集更多有关它们的信息。

例如,假设有两个“手臂”,赌徒拉动“手臂A” 两次,获得的平均奖励为 0.7,拉动手臂 B 一次,获得的平均奖励为 0.5。决策者应该继续拉动“手臂A”还是尝试“手臂B”  ?这里的不确定性是赌徒并不真正知道不同的选择之间的预期回报。一方面,赌徒按照现有的证据倾向于“手臂A”可能比“手臂B” 更好。另一方面,“手臂B” 只被拉动过一次,万一它接下来的平均收益更高呢?

有人会说我们多试几次就好了,由于大数定律,在独立同分布随机变量序列的情况下,随着样本量的增加,样本均值将趋于真实均值的规律。

但是我们往往不能做这么多尝试,例如下面一些场景

临床试验:两种治疗效果未知。选择哪一个?试验失败的代价极大,往往不能进行多次测试

这就使得多臂老虎机问题有了衍生的意义

以上就是多臂老虎机问题

等我学明白了强化学习再来做些解释

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值