深度剖析 AlphaGo 的训练策略

最新推荐文章于 2024-07-01 00:27:27 发布

Li_yi_chao

最新推荐文章于 2024-07-01 00:27:27 发布

阅读量2.1k

点赞数 1

分类专栏： DeepLearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Li_yi_chao/article/details/79397102

版权

本文深度剖析了AlphaGo的训练策略，包括有监督的CNN学习棋谱、估值网络VL评估落子策略、强化学习网络RL自我对弈改进，以及四个关键部分：走棋网络、快速走子、估值网络和蒙特卡洛树搜索。通过CNN训练、强化学习和蒙特卡洛树搜索，AlphaGo实现了围棋水平的显著提升。

摘要由CSDN通过智能技术生成

AlphaGo的训练中，主要涉及三个核心网络、四个重要部分

三个核心网络：

1、有监督的CNN：学习大量高手棋谱，实现‘快速成长’

2、估值网络VL：实战中，value-learn会对系统的下一步落子的策略，做评估

3、强化学习网络 RL：计算机不断‘自我对弈’，并在整盘棋下完后，对胜败结果做反馈，从而对整盘棋落子的合理性打分，协助系统落子。

四个重要部分：

1、走棋网络：给定抢钱局面，采样当前棋局，预测下一步的走棋

2、快速走子：在每一步落子期间，在当前情况下，快速走完所有情况，修正估值网络的参数

3、估值网络：给定当前局，估计白棋胜还是黑棋胜

4、蒙特卡洛树搜索：连接以上环节

AlphaGo的全过程：

深度剖析各网络：

1、16万盘高手对弈棋谱的CNN训练，拟合效果达到57%。

1)特征有专家设定为48种特征，即输入数据为19*19*48

2)网络只卷基层就有13层，且无全连接层，以1*1的卷积层取代

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。