Alpha论文系列笔记（一）AlphaGo

最新推荐文章于 2024-06-13 17:03:34 发布

YoYoDelphine

最新推荐文章于 2024-06-13 17:03:34 发布

阅读量4.4k

点赞数

分类专栏：深度学习文章标签：深度学习 AlphaGo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YoYoDelphine/article/details/85111181

版权

本文深入解析AlphaGo的论文，介绍蒙特卡洛树搜索法（MCTS）结合深度学习策略网络和估值网络在围棋游戏中的应用。通过监督学习和强化学习提升策略网络的性能，估值网络避免过拟合问题，以实现对复杂棋局的精准预测。

摘要由CSDN通过智能技术生成

1.背景

本文主要为我本身对AlphaGo¹论文的理解及解读。由于本身可能能力有限，解读不准确的地方欢迎大家指正。

符号简要说明

s : State(状态) 指代当前棋局状态，可以表示为一个 $19 \times 19$ 的特征平面

a : Action(动作) 指代在某一状态s下，可能采取某一动作（即将棋子下在某一个地方）

$A (s)$ : Action space(动作空间) 指代给定状态s下，所有合法的动作

$f (s, a)$ : 在状态s下，执行动作a后的后续状态

$p (a ∣ s)$ : 策略，在A(s)上的一个概率分布。（给定状态s，选择动作a的概率）

$z_t$ : 游戏结果，在游戏结束前均为0，游戏结束为1，代表玩家1获胜，为0代表平局，为-1代表失败

$v^p(s)$ : 给定状态s，在策略p下的价值函数(value function)，代表了期望结果。 $v^p(s)=E[z_t|s_t=s,a_{t...T} p]$

$v^*(s)$ : 在零和博弈中，给定状态s, 有一个唯一的最优价值函数

许多策略性游戏，比如象棋，围棋等，都可以被定义为交替马尔可夫游戏（alternating Markov games)。棋类游戏如围棋，也可以被定义为在给定状态s下，根据策略p, 在动作空间A(s)中选择一个动作a，使得价值函数v最好。

最优价值函数 $v^*(s)$ 可以递归的应用最小最大搜索(minimax search)来计算。但对于大多数游戏，这个计算量都太大了。因此提出用一个估算值 $v(s) = v^*(s)$ 来代替，该方法即为用alpha-beta pruning的深度优先最小最大搜索。这种方法可以适用于象棋和国际象棋等，但仍不能解决围棋。

文章提出，针对围棋，可以结合蒙特卡洛树搜索法(MCTS)和强化学习，通过两次估计来预测最优价值函数 $v^n(s)=v^{p^n}(s)=v^*(s)$ 。第一次估计，是给定策略 $p^n$ ，通过n次蒙特卡洛模拟来估计其模拟策略p的价值函数。第二次估计，是用模拟策略p的价值函数代替最大最小价值函数。

2. 网络详细介绍

网络组成简要说明

$p_\sigma$

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Alpha论文系列笔记（一）AlphaGo

1.背景本文主要为我本身对AlphaGo1论文的理解及解读。由于本身可能能力有限，解读不准确的地方欢迎大家指正。符号简要说明s : State(状态) 指代当前棋局状态，可以表示为一个19×1919 \times 1919×19 的特征平面a : Action(动作) 指代在某一状态s下，可能采取某一动作（即将棋子下在某一个地方）A(s)A(s)A(s) :...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。