核心思想
从当前状态出发的多个模拟轨迹不断地聚焦和选择,这是通过扩展模拟轨迹中获得较高评估值的初始片段来实现的,而这些评估值则是根据更早之前的模拟样本计算的。
策略
任何一条模拟轨迹都会沿着这棵树延伸,最后从某个叶子节点离开树。在这个过程中会涉及两个策略,一个是树内部的策略,另一个为树外部策略。
- 在树的内部,对于已经有动作价值估计的部分节点,我们采用树策略(
ϵ
\epsilon
ϵ-greedy、UCB)来选择动作
- 在树的外部以及叶子节点,通过预演策略选择动作。
基本步骤
1.选择
2.扩展(在某些循环跳过)
3.模拟
4.回溯
示例
![请添加图片描述](https://i-blog.csdnimg.cn/blog_migrate/1262d1f67c19d1e1bfc9e4db70367cb9.png)
流程图
以下流程图以UCB作为树策略
![请添加图片描述](https://i-blog.csdnimg.cn/blog_migrate/6e94c31258900bb3a25cbad42ef8182c.jpeg)