多臂老虎机问题

最新推荐文章于 2024-07-25 23:06:58 发布

涉猎广泛的派大星

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量60

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67614147/article/details/134905190

版权

研究强化学习时看到的一个问题

网上有很多解决方法，但是大家好像找不到这个问题具体是什么...

多臂老虎机问题是概率论和决策中的经典问题。

有K台老虎机。每台老虎机的拉杆都被视为一个“手臂”（因此一台老虎机有时被称为单臂老虎机）。
设置进行 T 次迭代，每次迭代中赌徒都会选择一只手臂来“拉”，并通过执行该动作获得奖励。
每次拉动手臂都会给出随机奖励，并且每个手臂都有一个未知但固定的预期奖励。例如，A臂的预期奖励可能为 0.3，A臂的每次拉动都会有70%的概率获得0奖励，30%的概率获得1奖励。
决策者的目标是最大化总奖励。

我们将会从赌徒的角度研究如何做最好地权衡。

在尝试次数有限的情况下

一方面，赌徒可以利用他们过去的经验来拉动看似平均回报较高的“手臂”。然而，由于赌徒认知是不准确（由于尝试的组合太少而无法对平均奖励进行可靠的估计），看起来不错的“手臂”实际上可能不是最理想的。为了避免这种情况，赌徒必须通过拉动其他（看似较差的）“手臂”来进行探索，以收集更多有关它们的信息。

例如，假设有两个“手臂”，赌徒拉动“手臂A” 两次，获得的平均奖励为 0.7，拉动手臂 B 一次，获得的平均奖励为 0.5。决策者应该继续拉动“手臂A”还是尝试“手臂B” ？这里的不确定性是赌徒并不真正知道不同的选择之间的预期回报。一方面，赌徒按照现有的证据倾向于“手臂A”可能比“手臂B” 更好。另一方面，“手臂B” 只被拉动过一次，万一它接下来的平均收益更高呢？

有人会说我们多试几次就好了，由于大数定律，在独立同分布随机变量序列的情况下，随着样本量的增加，样本均值将趋于真实均值的规律。

但是我们往往不能做这么多尝试，例如下面一些场景

临床试验：两种治疗效果未知。选择哪一个？试验失败的代价极大，往往不能进行多次测试

这就使得多臂老虎机问题有了衍生的意义

以上就是多臂老虎机问题

等我学明白了强化学习再来做些解释

涉猎广泛的派大星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
多臂老虎机问题

多臂老虎机问题的论述，不包括优化解决过程
复制链接

扫一扫

涉猎广泛的派大星 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

193万+: 周排名

26万+: 总排名

5006: 访问

: 等级

51: 积分

0: 粉丝

10: 获赞

2: 评论

8: 收藏

私信

关注

热门文章

分类专栏

强化学习 1篇

最新评论

【强化学习入门系列二】
CSDN-Ada助手: 恭喜作者持续创作，第三篇博客内容丰富，对强化学习进行了深入解析，让读者受益匪浅。建议作者在下一步的创作中，可以尝试结合实际案例，或者分享一些个人的学习心得体会，这样更能吸引读者的兴趣，期待作者更多精彩的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
多臂老虎机问题
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“多臂老虎机问题”让我对您的博文产生了浓厚的兴趣。我很高兴看到您持续创作，并且选择了一个引人入胜的主题。您对多臂老虎机问题的探讨一定会给读者带来新的启发和思考。在下一步的创作中，我诚挚地建议您考虑进一步扩展您的主题，例如研究不同的解决方法、探索该问题在实际应用中的潜力等等。这样的深入探索将使您的博客更加有价值，并且能够吸引更多读者的关注。请继续保持您的创作热情，并且相信自己的能力。期待看到您未来更多精彩的博文！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
解决TypeError: read_csv() got an unexpected keyword argument ‘error_bad_lines
CSDN-Ada助手: 恭喜你开始博客创作！标题也很吸引人，对于解决TypeError的问题，提供了很有帮助的提示。作为读者，我对你的解决方案充满期待。不过，我想提供一些建议作为你下一步创作的参考。首先，我希望你能在博客中更详细地介绍这个TypeError错误，并且解释为什么会出现这个错误。这样可以帮助读者更好地理解问题的本质，并且能够更全面地解决类似的错误。其次，你可以考虑给出更多的解决方案。虽然你提到了一种解决办法，但是读者可能还希望知道其他可行的方法，以便进行比较与选择。最后，你可以尝试通过提供一些相关的实例或案例来加强你的解决方案。这样可以帮助读者更好地理解问题，并且能够更好地将解决方案应用到实际情况中。希望我的建议对你有所帮助，期待看到你的下一篇博客！继续加油，你一定会写出更好的内容的！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。