【无聊问题之】MCTS完整迭代(选择,扩展,模拟,回溯)中的 “选择“步骤 和 “模拟“步骤中的选择 有什么区别

 >>"选择"步骤 :

MCTS在多次迭代中,每次迭代都需要重新选择节点。选择过程是基于搜索树中节点的统计数据(如访问次数和节点价值)来进行的,通常使用如UCB这样的策略来平衡探索(选择访问次数较少的节点)和利用(选择评估价值较高的节点)的关系。

>>"模拟"步骤中的选择:

在MCTS中,“扩展”步骤会创建多个子节点,但这些子节点并不是在每一次模拟中都会被用到。在“模拟”步骤开始时,算法会从扩展步骤创建的新子节点中选择一个作为起点进行模拟。

>>区别:

模拟步骤中的选择与MCTS完整迭代中的选择步骤的区别在于目标和上下文的不同。

在MCTS的完整迭代中,“选择”步骤是从根节点开始,递归地选择最优的子节点,直到达到一个尚未完全展开的节点或叶子节点。这个选择过程是基于搜索树中已有的节点信息和某种策略(如UCB策略)来进行的,目的是平衡探索和利用,找到最有可能带来好结果的节点。

而在模拟步骤中的选择,则是在扩展步骤创建的新子节点中选择一个作为模拟的起点。这个选择通常更加简单和直接,比如随机选择或者基于某种简单的启发式评估来选择。因为模拟的目的是为了快速估计节点价值,所以不需要像完整迭代中的选择那样复杂和精细。

总的来说,MCTS完整迭代中的选择步骤是为了在搜索树中找到最优的节点路径,而模拟步骤中的选择则是为了快速估计新创建节点的价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值