首先,要明确的一点是,算法并 不用了解 游戏的 领域知识 。 在一个游戏模拟过程中,相关决策的组合可能是一个很大的数,我们如何控制这个模拟行为是满足一定时间上的限制的。我们允许一个参数来控制时间。每次模拟一条路径,直到timeout模拟结束。 下面先介绍MCTS。 4个阶段,选择,扩展,模拟,回溯更新 选择胜率大的分支进行搜索(7/