AlphaGo Zero原理浅析

研究僧m0_37600149

于 2017-11-18 18:43:56 发布

阅读量5.1k

点赞数 3

分类专栏：强化学习文章标签：强化学习 alpha-go

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37600149/article/details/78570410

版权

AlphaGo Zero在《Mastering the game of Go without human knowledge》论文中介绍，与AlphaGo相比，它仅使用一个强化学习网络，整合了policy和value网络，并采用残差卷积网络。其算法核心仍基于MCTS，包括Select、Expand and evaluate、Backup和Training四个步骤，通过这些步骤不断优化决策和价值评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AlphaGo Zero

论文：《Mastering the game of Go without human knowledge》

AlphaGo与AlphaGo Zero主要有以下几点不同：

AlphaGo中用了３个policy network,AlphaGo Zero只用了一个reinforcement learning network
AlphaGo Zero将policy network,value network合并
AlphaGo Zero中没有Monte Carlo rollout
AlphaGo Zero的RL network用了残差卷积网络

Reinforcement Learning Network

　　在AlphaGo Zero中只用了一个network，同时输出了action probability和value.输入是当前状态，即将当前棋盘图片输入。network用的是残差卷积网络，加了batch normalization和非线性激活函数。

f θ = (p, v)

$f_\theta=(\mathbf{p},v)$

l o s s = (z - v) 2 - π T log p + c | | θ | | 2

$loss=(z-v)^2-\pi^T\log p+c||\theta||^2$

骨架

　　AlphaGo Zero的骨架同样是MCTS.

　　树上每一个节点表示状态s，边表示(s,a),每条边存储 $\{N(s,a),W(s,a),Q(s,a),P(s,a)\}$ , $N(s,a)$ 表示被访问次数, $W(s,a)$ 表示总的action value, Q(s,a)

最低0.47元/天解锁文章

研究僧m0_37600149

博客等级

码龄8年

11
原创

13
点赞

37
收藏

13
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Causal Inference in Statistics读书笔记-chapter1
junehedan: 这本书叫什么呀
Causal Inference in Statistics读书笔记-chapter1
何以言易: 最近正在看这本书，写的不错期待新章节
AlphaGo Zero原理浅析
weixin_42322670 回复研究僧m0_37600149: 真的是万分感谢笔者的回答，我自己也有开发一个深度学习的博弈系统，受困于游戏本身带有骰子信息的信息非完备性和训练模型的搭建，我用了简单的Q-learning强化学习策略来self-play，将对弈的数据拿来训练网络，但是毫无效果所以我也猜想MCTS在收集对弈数据的过程中应该起到了至关重要的作用，我正打算搭建MCTS来进行对局模拟，还有就是我强烈希望能得到笔者的联系方式，以便能请教您更多细节上的问题！
AlphaGo Zero原理浅析
研究僧m0_37600149 回复 weixin_42322670: MCTS是一种启发式搜索，它是有选择的扩展节点，不需要遍历所有状态（2^19），通过模特卡洛树搜索得到的样本用来训练策略网络；而利用强化学习的价值网络计算出每个状态的V值，就不需要一直执行到游戏结束才能知道状态的价值，即不需要rollout estimate. (太久没登博客，这么久才回复真是不好意思==)
AlphaGo Zero原理浅析
weixin_42322670: 蒙特卡洛树在神经网络的训练中起到什么作用，两者如何协同工作的

大家在看

最新文章

目录

展开全部

收起

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。