流程图直观描述蒙特卡洛树搜索(MCTS)

本文解析了基于模拟退火的决策树算法,探讨了其核心思想,即通过模拟轨迹优化和UCB策略选择动作。讲解了树内和树外策略,并详述了选择、扩展、模拟和回溯的基本步骤,配以UCB策略的流程图示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核心思想

从当前状态出发的多个模拟轨迹不断地聚焦和选择,这是通过扩展模拟轨迹中获得较高评估值的初始片段来实现的,而这些评估值则是根据更早之前的模拟样本计算的。

策略

任何一条模拟轨迹都会沿着这棵树延伸,最后从某个叶子节点离开树。在这个过程中会涉及两个策略,一个是树内部的策略,另一个为树外部策略。

  • 在树的内部,对于已经有动作价值估计的部分节点,我们采用树策略( ϵ \epsilon ϵ-greedy、UCB)来选择动作
  • 在树的外部以及叶子节点,通过预演策略选择动作。

基本步骤

1.选择
2.扩展(在某些循环跳过)
3.模拟
4.回溯

示例

请添加图片描述

流程图

以下流程图以UCB作为树策略
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值