Progressive Widening

最新推荐文章于 2024-08-16 18:13:47 发布

酸酸甜甜我最爱

最新推荐文章于 2024-08-16 18:13:47 发布

阅读量384

点赞数 6

分类专栏：基础理论学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fearless_Sun/article/details/136454113

版权

基础理论学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

下面的解释来源于论文《Monte Carlo Tree Search With Iteratively Refining State Abstractions》，因为这篇论文的重点不是Progressive Widening，所以就不全文学习了，只摘抄其中关于Progressive Widening的部分。

Progressive Widening（渐进式扩展，PW）是MCTS的一种改进方法，它可以再任意随机域中构建深度搜索树。它的基本思想是在对新的下一个状态进行采样和对已经在树上的下一个状态进行采样之间交替。如果状态-动作对相对于树中的继承状态进行已经尝试多次，则PW会添加新的状态。另一方面，如果相对于尝试的次数而言，存在大量继承状态，则树中已有的继承状态样本将会逐渐扩大。是否采样由布尔量（其中是超参数）决定。渐进式加宽采样步骤的简化伪代码如算法一所示。

非正式地，超参数α可以被认为是在现有子项中进行选择的倾向，而不是添加新的子项。当 k = 1， α = 0 时，渐进式扩展简化为转换确定（首次访问状态-动作对）时，将对后续状态进行采样并将其添加到树中。此后，每次访问状态-操作对时，都会选择相同的继承状态。当 k = 1， α = 1 时，渐进式扩展将减少为普通的 MCTS，即每次遇到状态操作对时，都会对新的后继状态进行采样并添加到树中。

如果 k 和 α 可以正确调整，则渐进式加宽可提供灵活性。在随机性很重要的领域中，α可以设置为 1 或接近 1。在可以忽略随机性的领域中，可以将α设置为零或接近于零。否则，中间值通常效果很好。

酸酸甜甜我最爱

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Progressive Widening

Progressive Widening相关理论
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。