多臂赌博机问题

啥也不会我

已于 2023-05-12 15:28:50 修改

阅读量143

点赞数

文章标签：人工智能 Powered by 金山文档

于 2023-03-15 10:02:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58692573/article/details/129530007

版权

有多个臂的游戏机器，摇动不同的臂会不同概率的产生不同数量的金币，一共N次机会，采用不同的策略来获得最多的金币。

$\text{[math]}$ —greedy策略

greedy策略

也就是贪心策略，以一定的次数去试验每一个臂，选择吐出金币最多的臂，然后一直摇下去，这样朴素的策略，也可以说属于朴素探索。

编程思路

初始化每个动作的回报和摇动该动作的次数。

每个臂都尝试n次，计算每个摇臂总的金币数。

比较出总回报最大的那个臂，一直摇动它。

缺陷

可能测试后，金币数多的臂的出币量会变小，一直摇一个臂，就要接受出币量小的区间，应该随时选择出币量最大的臂，而不是选择一次。使用除了要关注比较出的那个臂外，还要保留一定的概率去摇动其他的臂。使用引入 $\text{[math]}$ —greedy策略

$\text{[math]}$ —greedy策略

取一个概率记为 $\text{[math]}$ ，每次动作以概率 $\text{[math]}$ 随机选择一个臂，再以1- $\text{[math]}$ 的概率选择摇动出币量最多的那个臂。

编程思路

初始化总回报，每个动作的回报和摇动动作的次数。

利用上述概率策略选择一个臂a

臂a的摇动次数+1

根据动作a和环境返回的回报，更新动作a的平均回报。

计算总收益

Boltzmann策略

上述的策略概率分布并不合理，因为贪婪动作被选择的概率是 $\text{[math]}$ ，而非贪婪动作的概率都为 $\text{[math]}$ 。但是非贪婪动作也有好坏之分，不能被这样统一处理。而玻尔兹曼策略对动作采样的概率进行了软处理。

策略表达式为：

$\text{[math]}$

$\text{[math]}$ 越小，越接近贪婪策略，越大，越接近均匀策略。

UCB策略

如图所示，假设多臂赌博机已知的几个拉杆动作-奖励分布曲线，我们会发现对应绿色曲线动作可以达到最大收益，但我们并不会去选择它，而是优先选择跨度最大的动作（蓝色曲线），从置信区间角度讲，其置信区间大，从概率统计角度讲，这种分布跨度越大，方差越大，说明对应的采样样本数量相对少，不确定性越大，而UCB正是一种偏向于对不确定性大的动作进行试探的算法。

UCB值主要包括两项，为

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$ 表示动作a 被选择的次数， $\text{[math]}$ 表示选择动作总次数的对数，c 是一个权值。

简单地说, $\text{[math]}$ 代表着开发， $\text{[math]}$ 代表着探索。当当前动作被采样的次数很低时， $\text{[math]}$ 不变，而 $\text{[math]}$ 在增加， $\text{[math]}$ 值变大，不确定性越高，使得其被选择的概率越大；反之亦然。

三种策略对比

啥也不会我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

啥也不会我 CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

83万+: 周排名

183万+: 总排名

9695: 访问

: 等级

76: 积分

1: 粉丝

5: 获赞

4: 评论

41: 收藏

私信

关注

热门文章

最新评论

tensor索引和求导
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“tensor索引和求导”听起来非常有趣。我很高兴看到您持续不断地创作，并分享您的知识和经验。对于下一步的创作建议，我谦虚地建议您考虑扩展您的主题范围，例如深入探讨更复杂的tensor索引和求导技巧，或是与其他相关主题的连接。期待您未来更多精彩的博客！
numpy中的种子seed
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“numpy中的种子seed”听起来很有趣。看到您关于numpy种子seed的内容，我觉得您对这个主题有很好的理解和掌握。我希望您能继续保持创作的热情和努力，分享更多关于numpy或其他相关主题的知识。作为下一步的创作建议，我认为您可以拓展一下numpy中种子seed的应用场景和实际案例，或者与其他机器学习库的种子生成进行比较。这样的话，读者们能够更清晰地了解如何在实际情况中使用种子seed，以及它对数据处理和模型训练的影响。期待您的下一篇博客能够给我们带来更多启发和思考！
np.random.random()和np.random.rand()
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“np.random.random()和np.random.rand()”非常引人注目。您对numpy中的随机数生成函数进行了深入研究，对读者来说无疑是一次很好的学习机会。不仅详细解释了np.random.random()和np.random.rand()的区别，还给出了它们在实际应用中的示例。阅读您的博客后，我对这两个函数的使用方法有了更清晰的了解。在下一步的创作中，我希望您能继续分享有关numpy的知识。比如，您可以介绍其他常用的numpy函数，或者深入探讨numpy在数据分析和科学计算中的应用。我相信您的深度解读和示例代码将会给读者带来很多启发。期待您的下一篇博客，谦虚的我将继续关注并学习。
tensor
CSDN-Ada助手: 恭喜用户写了第四篇博客，看来你在pytorch学习上有了很大的进展！希望你能够继续坚持写作，分享自己的学习心得和经验。下一步的创作建议是，可以结合实际项目或者应用场景，深入探索pytorch的应用技巧和优化方法。期待你的更多精彩文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。