Progressive Widening

下面的解释来源于论文《Monte Carlo Tree Search With Iteratively Refining State Abstractions》,因为这篇论文的重点不是Progressive Widening,所以就不全文学习了,只摘抄其中关于Progressive Widening的部分。

Progressive Widening(渐进式扩展,PW)是MCTS的一种改进方法,它可以再任意随机域中构建深度搜索树。它的基本思想是在对新的下一个状态进行采样和对已经在树上的下一个状态进行采样之间交替。如果状态-动作对相对于树中的继承状态进行已经尝试多次,则PW会添加新的状态。另一方面,如果相对于尝试的次数而言,存在大量继承状态,则树中已有的继承状态样本将会逐渐扩大。是否采样由布尔量(其中是超参数)决定。渐进式加宽采样步骤的简化伪代码如算法一所示。

非正式地,超参数α可以被认为是在现有子项中进行选择的倾向,而不是添加新的子项。当 k = 1, α = 0 时,渐进式扩展简化为转换确定(首次访问状态-动作对)时,将对后续状态进行采样并将其添加到树中。此后,每次访问状态-操作对时,都会选择相同的继承状态。当 k = 1, α = 1 时,渐进式扩展将减少为普通的 MCTS,即每次遇到状态操作对时,都会对新的后继状态进行采样并添加到树中。

如果 k 和 α 可以正确调整,则渐进式加宽可提供灵活性。在随机性很重要的领域中,α可以设置为 1 或接近 1。在可以忽略随机性的领域中,可以将α设置为零或接近于零。否则,中间值通常效果很好。

  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值