原文链接:http://web.stanford.edu/~surag/posts/alphazero.html
本文的目标是提炼AlphaGo Zero论文中的关键思想,并通过代码来进行具体理解。我们假定读者熟悉机器学习和强化学习的概念。如果您对神经网络和蒙特卡罗树搜索(Monte Carlo Tree Search)有基本的了解,您应当能轻松地理解这篇文章。在阅读本文之前(或之后),我建议您阅读原始论文。它写的清晰易读,并且有漂亮的插图。一言蔽之:AlphaGo Zero通过自我强化学习进行训练。它将神经网络和蒙特卡罗树搜索结合在一个巧妙的策略迭代框架中,以实现稳定学习。
神经网络
神经网络是算法的核心组成部分之一。神经网络 将 作为参数,将棋盘状态 作为输入。它的输出包含两类函数:棋盘状态对当前玩家的价值函数 ,和建立在所有行动可能上的概率向量即决策函数 。
在每次自我对局之后,神经网络都会获得形如 的训练样例。其中, 为对状态 下的策略的估计(我们会在下个部分中介绍如何得到 ), 是 状态下玩家的对局结果(如果玩家胜利则表示为1,失败则表示为-1)。之后通过训练神经网络来最小化如下损失函数(含正则化):
随着时间的推移,神经网络将学习哪些状态会导致最终胜利(或失败)。此外,学习该策略会对基于当前状态的最佳行动给出一个很好的估计。神经网络的架构通常取决于游戏。大多数棋盘游戏(例如围棋)都可以使用多层CNN架构。在DeepMind的论文中,他们使用了20个残差块,每个块各含2个卷积层。 我使用了一个4层CNN网络和一些前馈层来处理一个6x6黑白棋游戏。
(未完)