感觉才过一个月多,AlphaGo又进一步,推出了AlphaZero。这次除了会下围棋、还会国际象棋和将棋。做到了道德经里说的“一生多”。
据了解,AlphaZero算法可以再8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋程序Stockfish;14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。
文章内容依旧是很短,不到5页的内容,基本思路与上一个版本AlphaGo Zero类似,采取将每一步蒙特卡洛数搜索MCTS的结果作为指导,优化神经网络参数,优化的误差函数就是文中的公式(一),也是文中唯一一个公式,与上一个版本一样。而且AlphaZero应用在国际象棋、将棋和围棋中,都使用同样的算法设置、网络架构和超参数。唯一不同是神经网络的输入不同。例如围棋是19*19*17;而国际象棋是8*8*119。因此,我个人估计,这个版本的文章不会再发表在《Nature》上了,毕竟创新之处不多。