Monte Carlo Rollout 蒙特卡洛展开

最新推荐文章于 2024-09-14 09:32:47 发布

YH美洲大蠊

最新推荐文章于 2024-09-14 09:32:47 发布

阅读量1.1k

点赞数 8

文章标签：深度学习

本文链接：https://blog.csdn.net/YHKKun/article/details/136786572

版权

本文介绍了蒙特卡洛树搜索(MCTS)中的Rollout技术，它在节点未完全探索时提供快速价值估计。Rollout通过模拟和累积回报帮助优化搜索树，但策略选择需兼顾效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

蒙特卡洛展开（Monte Carlo Rollout）是在强化学习和搜索算法中使用的一种技术，特别是在蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）中。

在MCTS中，Rollout通常发生在模拟的后期，当搜索树中的一个节点被访问，但其子节点尚未被完全探索或评估时。为了节省计算资源并快速得到一个对该节点可能价值的估计，算法会执行一个Rollout：从该节点开始，按照某个快速但可能不是最优的策略进行模拟，直到达到一个终止状态（如游戏结束），然后记录下从该节点到终止状态整个路径上的累积回报。

Rollout的目的是为了提供一个快速的、基于采样的价值估计，这个估计可以被用来更新MCTS搜索树中节点的价值。虽然单个Rollout可能不准确，但通过执行大量的Rollouts并对结果进行平均，可以得到一个相当准确的价值估计。

Rollout策略的选择对于MCTS的性能至关重要。过于简单的策略可能会导致价值估计的偏差，而过于复杂的策略则可能会减慢模拟的速度。在实际应用中，通常会选择一种在计算效率和准确性之间取得平衡的策略。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YH美洲大蠊

关注关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

rollout的意思

Hope^_^

03-13

2992

SeqGAN和LeakGAN里都提到这个东西，感觉就是用上一个词的输出作为下一个要生成的词的输入一个一个生成一句话的意思

AlphaZero vs 蒙特卡洛树搜索（MCTS）和神经网络: A Generalizable AI That Masters Chess

AI天才研究院

08-10

453

1997年，Google DeepMind提出了一种基于深度强化学习（Deep Reinforcement Learning）的方法AlphaGo，它打败了围棋冠军李世石。经过5个月的训练后，AlphaGo已经能够在五子棋、象棋和国际象棋等不同游戏中击败顶级人类选手。随后，研究人员也对AlphaGo进行改进，提出了AlphaZero算法，并成功地训练出一个可以通用到其他五种不同棋类游戏的AI。

参与评论您还未登录，请先登录后发表或查看评论

[人工智能导论学习笔记] MCTS

PleaseBeStrong的博客

09-04

338

总的来说，算法遍历时先从根节点出发，对子节点做UCB1算法，筛选出相应的子节点后就可以判断如果是叶子节点且没有被遍历过 -->rollout如果是叶子节点且已经被遍历过 -->expansion如果不是叶子节点（比如中间的那一层节点） -->应该继续通过UCB1算法筛选出下一个需要遍历的节点适用于大分支因子的搜索树，而且可以通过硬件提升大量rollout的并行化。

rollout

cgfth

11-06

5156

似乎是策略网络在游戏状态sss可能的移动aaa确定一个概率分布p(a∣s)p(a\mid s)p(a∣s)，程序以随机的方式搜索游戏树，而ppp确定了其该这样进行这种搜索。我们希望这个功能能“引导”程序做出强者可能做出的动作。这是有道理的，因为当你搜索游戏树的时候，以错误开始的分支在与一个聪明的对手评估当前棋盘位置时不太相关。当他们说rollout策略（我相信他们借用了西洋双陆棋的术语——“ro...

AlphaGo学习笔记（一）------蒙特卡洛（一）

weixin_40999066的博客

03-19

1515

蒙特卡洛 注：本人在初学阶段，根据所读的文献并查阅资料有了自己的理解，难免有一些理解错误之处，希望大家不吝赐教，批评指正：）一.蒙特卡洛模拟： 蒙特卡洛模拟是一种简单的基于模拟的搜索算法，用于从根状态s0评估候选招法。也就是每在一个盘面下，采用快速走子策略(rollout policy)，随机落子，将所有的可能都全部模拟出来，不必考虑这招棋的能对自己产生多大利益，因为围棋本身也很难构造局...

蒙特卡洛树搜索（MCTS）

qq_42981705的博客

04-18

2720

蒙特卡洛树搜索

MCTS自动驾驶规划

不荒废现在，不畏惧未来！

06-20

2798

参考：蒙特卡洛树搜索首先，我们给MCTS下两个定义。第一，MCTS是一个决策时规划算法；第二，MCTS是一个rollout算法。不同之处在于MCTS中会部分的保存值函数，从而能够指导仿真产生更高回报值的轨迹。在MCTS中，每当我们遇到一个新的状态，需要选择动作时，就会执行MCTS（决策时规划）。每一个MCTS更新过程都是一个迭代过程。这个迭代过程会仿真很多从当前状态开始直到终止态的轨迹（rollout）。MCTS的核心思想是专注于哪些获得高的评估回报的仿真，并且基于先前的高回报仿真轨迹不断的往外扩展，产生

monte_carlo_tree_search.rar_五子棋 monte_蒙特卡洛树_蒙特卡洛树棋_蒙特卡洛树搜索示例

09-20

在人工智能领域，尤其是在棋类游戏的算法设计中，蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种非常有效的方法。本示例将详细介绍如何运用蒙特卡洛树搜索策略来实现五子棋的智能对弈。下面，我们将深入...

强化学习笔记（七）：蒙特卡洛树搜索（MonteCarlo Tree Search）

LuoMin2523的博客

06-22

4940

如果说多臂赌博机问题被看做单步强化学习任务（只用一步决策玩哪个老虎机，然后就收到回报），那么蒙特卡洛树搜索可以看做是解决多步强化学习任务的工具。树是一种天然的用来刻画或者存储多步决策的数据结构。正如所有的动态规划问题可以被转化为图搜索，而所有的线性规划问题可以被转化为二分图一样。至于蒙特卡洛树搜索，实际上可以分为两步[1]：利用树结构来重新表达决策问题利用蒙特卡洛方法来进行搜索 MCTS对游戏进行多次模拟，然后尝试基于模拟结果对最佳下一步进行预测。MCTS的四个步骤，即选择、扩展、模拟...

AlphaGo与蒙特卡罗树搜索

gdhu

12-01

2057

2016年 AlphaGo 横空出世，在AI界和围棋界掀起了一阵腥风血雨。宝刀一出，无数围棋高手如樊麾，李世石，柯洁等人先后被斩于马下。正所谓：十步杀一人，千里不留行。事了拂衣去，深藏功与名。 AlphaGo 使用的技术有深度神经网络和树搜索，这篇文章主要介绍一下树搜索。简单的说 Monte-Carlo Tree Search（MCTS）的意思就是讲蒙特卡罗抽样的思想用到树搜索上。

AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search中文译文

Cinderella___的博客

10-31

1329

AlphaX:利用深度神经网络和蒙特卡罗树搜索探索神经结构 Linnan WangYiyang ZhaoYuu JinnaiYuandong TianRodrigo FonsecaBrown University Facebook AI Research 摘要我们介绍AlphaX，一个完全自动化的代理，从零开始设计复杂的神经架构。AlphaX...

MCTS 蒙特卡洛树搜索

Michelle_Enn的博客

06-08

487

MCTS 蒙特卡洛树搜索自用笔记

强化学习第一节

qq_44686666的博客

03-16

5521

强化学习蒙特卡罗算法多臂老虎机策略奖励

什么是计算机软件领域的 rollout 概念

最新发布

孔乙己的博客

09-14

548

Rollout” 一词源于英语中的“roll out”，字面意义是“展开”或“推出”。在计算机科学领域，尤其是软件开发和硬件产品管理中，rollout 通常指的是将新功能、新版本或新产品逐步推向所有用户或系统的过程。这种方法可以减少风险，优化用户体验，并确保在全体用户中顺利过渡。功能级 Rollout：这是指在软件产品中逐步引入新功能。例如，一个在线服务可能会逐步推出新的用户界面设计，而不是一次性全部更换。版本级 Rollout。

初探强化学习(2)rollout算法

qq_33328642的博客

02-24

6167

这个文章是从这个网页搬来的：https://zhuanlan.zhihu.com/p/61062275 说实话，之所以会看这个只是，主要是因为被这篇论文End-to-end training of deep visuomotor policies中的一句话给迷惑了很久。一句话带过，大概是大佬完全把这个知识当成基础知识了，所以完全不给解释和参考文献。于是这段我一直是不明白，只知道是在采样，具体怎么采样，也不明白。于是搜到了这篇文章。开始这节之前，我们先说说什么是rollout？本来想翻译一下这个词

MCTS人工智能围棋

weixin_47108207的博客

10-04

1020

基于一些已学习过或独立研发的 AI 算法开发自己的 AI 智能围棋程序，通过使用多种最优搜索和强化学习的算法在一个缩小版的围棋游戏中进行对战。相比于正常围棋，在本次对战中使用的围棋棋盘尺寸缩小为 5x5（正常围棋尺寸为 19x19）。你的目标是使用你的智能围棋程序和你的同学进行竞赛，通过使用不同的搜索算法，实现最优的围棋策略，打败你的竞争对手们

蒙特卡罗树搜索+深度学习 -- AlphaGo原版论文阅读笔记

ACM 【程式=演算法+資料結構】@蜡笔小轩V

03-23

3万+

原版论文是《Mastering the game of Go with deep neural networks and tree search》,有时间的还是建议读一读，没时间的可以看看我这篇笔记凑活一下。网上有一些分析AlphaGo的文章，但最经典的肯定还是原文，还是踏踏实实搞懂AlphaGo的基本原理我们再来吹牛逼吧。需要的基础是机器学习基本理论+蒙特卡罗树搜索（MCTS）。

蒙特卡洛树搜索（新手教程）