Alpha论文系列笔记(一)AlphaGo

本文深入解析AlphaGo的论文,介绍蒙特卡洛树搜索法(MCTS)结合深度学习策略网络和估值网络在围棋游戏中的应用。通过监督学习和强化学习提升策略网络的性能,估值网络避免过拟合问题,以实现对复杂棋局的精准预测。
摘要由CSDN通过智能技术生成

1.背景

本文主要为我本身对AlphaGo1论文的理解及解读。由于本身可能能力有限,解读不准确的地方欢迎大家指正。

符号简要说明

s : State(状态) 指代当前棋局状态,可以表示为一个 19 × 19 19 \times 19 19×19 的特征平面

a : Action(动作) 指代在某一状态s下,可能采取某一动作(即将棋子下在某一个地方)

A ( s ) A(s) A(s) : Action space(动作空间) 指代给定状态s下,所有合法的动作

f ( s , a ) f(s,a) f(s,a) : 在状态s下,执行动作a后的后续状态

p ( a ∣ s ) p(a|s) p(as) : 策略,在A(s)上的一个概率分布。(给定状态s,选择动作a的概率)

z t z_t zt : 游戏结果,在游戏结束前均为0,游戏结束为1,代表玩家1获胜,为0代表平局,为-1代表失败

v p ( s ) v^p(s) vp(s) : 给定状态s,在策略p下的价值函数(value function),代表了期望结果。 v p ( s ) = E [ z t ∣ s t = s , a t . . . T p ] v^p(s)=E[z_t|s_t=s,a_{t...T} p] vp(s)=E[ztst=s,at...Tp]

v ∗ ( s ) v^*(s) v(s) : 在零和博弈中,给定状态s, 有一个唯一的最优价值函数

许多策略性游戏,比如象棋,围棋等,都可以被定义为交替马尔可夫游戏(alternating Markov games)。棋类游戏如围棋,也可以被定义为在给定状态s下,根据策略p, 在动作空间A(s)中选择一个动作a,使得价值函数v最好。

最优价值函数 v ∗ ( s ) v^*(s) v(s) 可以递归的应用最小最大搜索(minimax search)来计算。但对于大多数游戏,这个计算量都太大了。因此提出用一个估算值 v ( s ) = v ∗ ( s ) v(s) = v^*(s) v(s)=v(s) 来代替,该方法即为用alpha-beta pruning的深度优先最小最大搜索。这种方法可以适用于象棋和国际象棋等,但仍不能解决围棋。

文章提出,针对围棋,可以结合蒙特卡洛树搜索法(MCTS)和强化学习,通过两次估计来预测最优价值函数 v n ( s ) = v p n ( s ) = v ∗ ( s ) v^n(s)=v^{p^n}(s)=v^*(s) vn(s)=vpn(s)=v(s)。第一次估计,是给定策略 p n p^n pn, 通过n次蒙特卡洛模拟来估计其模拟策略p的价值函数。第二次估计,是用模拟策略p的价值函数代替最大最小价值函数。

2. 网络详细介绍

网络组成简要说明

p σ p_\sigma pσ

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值