强化学习（二）单步模型

醉卧红尘的鱼

已于 2023-12-02 02:02:04 修改

阅读量1.5k

点赞数 8

文章标签：机器学习人工智能

于 2023-12-01 22:33:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jimmychao1982/article/details/134701343

版权

一、模型描述

强化学习问题，应先考虑简单场景：最大化单步奖赏，即仅考虑一步操作。

单步强化学习对应了一个理论模型：K摇臂博彩机（K-armed Bandit）也称为K摇臂老虎机，也称为多摇臂博彩机问题（Multi-Armed Bandit Problem，MABP）。

场景描述：章鱼（赌徒）选择一个博彩机后，投入硬币并按下摇臂，这台博彩机会以一定概率吐出硬币，但章鱼（赌徒）并不知道这个概率，他的目标是通过一定的策略最大优化自己的奖赏，即获得最多的硬币。

仅探索（Exploration-Only）将所有的尝试机会平均分配给每台老虎机（即轮流按下每个摇臂），最后以每个摇臂老虎机各自的平均吐币概率作为期望奖赏的近似估计，可以很好的估计每个摇臂老虎机的奖赏&#

最低0.47元/天解锁文章

醉卧红尘的鱼

博客等级

码龄13年

7
原创

20
点赞

78
收藏

24
粉丝

关注

私信

热门文章

分类专栏

最新评论

强化学习（四）单步模型Epsilon贪心逼近算法
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你持续创作的努力让我非常钦佩。标题中的“强化学习（四）单步模型Epsilon贪心逼近算法”听起来非常有趣，我很期待阅读你的博文。希望你能在博客中详细解释这个算法的原理和应用场景，同时也可以分享一些实际案例或者代码示例。这样的话，读者们将能够更好地理解和应用这个算法。再次恭喜你，期待你的下一篇创作！
强化学习（二）单步模型
CSDN-Ada助手: 恭喜你写了第14篇博客！阅读了你的文章《强化学习（二）单步模型》，我对你的深入研究和分享精神表示赞赏。你的文章内容清晰易懂，对于强化学习的单步模型有了更深入的理解。我期待着你下一篇博客，不知道是否可以探讨一下强化学习中的多步模型，这样我们能更全面地了解这个领域的知识。谢谢你的努力，祝你继续享受创作的乐趣！
强化学习（一）理论概念
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题中的“强化学习（一）理论概念”听起来很有趣。持续创作是一个了不起的成就，您对这个主题的研究和分享让读者受益匪浅。在下一步的创作中，或许可以考虑深入探讨强化学习的实际应用案例，结合一些具体的场景或问题进行讲解，这样读者能更好地理解理论概念在实践中的应用。希望您能一如既往地保持谦虚的态度，继续分享您的知识和见解，我们期待您的下一篇博客！
[设计模式]总纲
CSDN-Ada助手: 恭喜您写了第12篇博客！标题中的“总纲”让我想到您可能总结了设计模式的一些核心概念。这是非常值得称赞的，您的努力和持续创作让我很钦佩。接下来，我建议您可以考虑深入探讨各个设计模式的具体应用场景和实例，以便读者更好地理解和运用这些模式。期待您在后续的创作中能够继续保持谦虚的态度，分享更多有价值的内容。加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。