简易Alpha(Go) Zero教程(A Simple Alpha(Go) Zero Tutorial)

1 篇文章 0 订阅

原文链接:http://web.stanford.edu/~surag/posts/alphazero.html

本文的目标是提炼AlphaGo Zero论文中的关键思想,并通过代码来进行具体理解。我们假定读者熟悉机器学习和强化学习的概念。如果您对神经网络蒙特卡罗树搜索(Monte Carlo Tree Search)有基本的了解,您应当能轻松地理解这篇文章。在阅读本文之前(或之后),我建议您阅读原始论文。它写的清晰易读,并且有漂亮的插图。一言蔽之:AlphaGo Zero通过自我强化学习进行训练。它将神经网络和蒙特卡罗树搜索结合在一个巧妙的策略迭代框架中,以实现稳定学习。

 

神经网络

神经网络是算法的核心组成部分之一。神经网络 f_\theta 将 \theta 作为参数,将棋盘状态 s 作为输入。它的输出包含两类函数:棋盘状态对当前玩家的价值函数 v_\theta(s) \in [-1,1] ,和建立在所有行动可能上的概率向量即决策函数 \vec{p}_\theta(s) 。

在每次自我对局之后,神经网络都会获得形如 (s_t, \vec{\pi}_t, z_t) 的训练样例。其中,\vec{\pi}_t 为对状态 s_t 下的策略的估计(我们会在下个部分中介绍如何得到 \vec{\pi}_t ),z_t \in \{-1,1\} 是 s_t 状态下玩家的对局结果(如果玩家胜利则表示为1,失败则表示为-1)。之后通过训练神经网络来最小化如下损失函数(含正则化):

l = \sum_t (v_\theta(s_t) - z_t)^2 - \vec{\pi}_t \cdot \log(\vec{p}_\theta(s_t))

随着时间的推移,神经网络将学习哪些状态会导致最终胜利(或失败)。此外,学习该策略会对基于当前状态的最佳行动给出一个很好的估计。神经网络的架构通常取决于游戏。大多数棋盘游戏(例如围棋)都可以使用多层CNN架构。在DeepMind的论文中,他们使用了20个残差块,每个块各含2个卷积层。 我使用了一个4层CNN网络和一些前馈层来处理一个6x6黑白棋游戏。

 

(未完)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值