AlphaGo算法框架解读
Author: L. Chen, UoS
1. Introduction:
如图1,在围棋中,每一步棋,从State K到State K+1都有很多种走法(move)。
在信息完整的情况下,在棋局的每一步,计算机可以使用穷举法,自己与自己下棋(self-play),尝试每一个选择,模拟所有可能的完整战局,观察结果,然后选出最佳走法。显然,就围棋而言,穷举法的计算量极其庞大,目前的计算机会很吃力。
AlphaGo算法框架解读
Author: L. Chen, UoS
1. Introduction:
如图1,在围棋中,每一步棋,从State K到State K+1都有很多种走法(move)。
在信息完整的情况下,在棋局的每一步,计算机可以使用穷举法,自己与自己下棋(self-play),尝试每一个选择,模拟所有可能的完整战局,观察结果,然后选出最佳走法。显然,就围棋而言,穷举法的计算量极其庞大,目前的计算机会很吃力。