【详细原理】蒙特卡洛树搜索

最新推荐文章于 2025-03-13 10:18:08 发布

青云遮夜雨

最新推荐文章于 2025-03-13 10:18:08 发布

阅读量1.4k

点赞数 20

分类专栏：算法文章标签：强化学习深度学习 elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51957239/article/details/142301015

版权

单一状态蒙特卡洛规划：多臂赌博机

多臂赌博机问题（Multi-Armed Bandit）是强化学习中的经典问题，涉及在有限的时间内，从多台赌博机（即“臂”）中选择，以最大化累积奖励。单一状态蒙特卡洛规划是一种解决该问题的有效方法。

问题描述

假设有 $K$ 个臂的赌博机，每个臂 $k$ 的奖励分布未知。目标是在 $T$ 次尝试中，选择臂 $a_t$ ，使得累积奖励 $\sum_{t=1}^{T} r_{a_t}$ 最大，其中 $r_{a_t}$ 是在时间步 $t$ 选择臂 $a_t$ 获得的奖励。

探索与利用的权衡

在多臂赌博机问题中，需要在探索（尝试不同的臂以了解其潜在奖励）和利用（选择当前估计最优的臂以获取高奖励）之间取得平衡。

如果有 $k$ 个赌博机，这 $k$ 个赌博机产生的操作序列为 $X_{i,1}, X_{i,2}, \dots$ （ $\dots, k$ ）。在时刻 $\dots$ ，选择第 $I_t$ 个赌博机后，可得到奖赏 $X_{I_t,t}$

最低0.47元/天解锁文章

青云遮夜雨

博客等级

码龄5年

149
原创

1024
点赞

2175
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

基于GPT-2的新闻文本生成——News Creator，使用MindSpore实现
起名好难呀U: 代码链接已经过期，请问博主可以更新一下链接嘛？想学习处理agnews部分的代码
Vision Transformer(ViT)论文解读与代码实践(Pytorch)
小学生sam: 博主你好请问是自己的训练集还要用原来的预训练权重吗
LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3
DebugDiva: Meta新推的LLaMA 3确实挺有看点，80亿和700亿参数的模型在各种场景下都挺实用，性能也是一流。改进的推理、代码生成功能，还有那Decoder-only架构，感觉在处理复杂任务上会更高效。值得深入研究和实践。
LLaMa系列模型详解（原理介绍、代码解读）：LLaMa
CodeWhisperer: RMSNorm确实能稳定训练过程，避免梯度问题，适合各种形状的输入，对不平衡数据集也友好。LLaMa模型采用这种归一化技术，有助于提升训练效率和模型性能，值得一试。
LLaMa系列模型详解（原理介绍、代码解读）：LLaMA 3
码农小筑: LLaMa 3作为Meta开源大模型新秀，参数量80亿和700亿的预训练与指令微调版本，性能领跑业界标准测试。新增强推理功能，架构与LLaMa 2相近，训练和推理优化显著，GitHub上已开源，值得关注。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

青云遮夜雨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。