自学机器学习笔记（十八）

最新推荐文章于 2024-07-21 19:18:55 发布

梦忆师

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量330

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51963033/article/details/122775737

版权

围棋基本规则：

中国规则：无气自提，禁止全局同形，地大者胜

无气自提：

气：每颗子的上下左右空着的地方，都是这颗子的气，如：

而且要把上下左右相连的，同样颜色的子看成一个整体来统计气的数量

无气自提：走一步后，使对方一片棋子处于完全无气状态，这片棋子要被移出棋盘‘

当某一个格点已经没有气了，哪怕它是空的，也不允许走到这里了，这里叫做禁着点

当一方走到没有气的地方，能提掉对方的棋子时，允许它走到这里并提掉对方棋子

禁止全局同形：双方下每一步棋后，棋子上黑子、白字和空格的分布，不能和以前任何一步完全一样

胜负的计算：中国规则：黑棋赢棋，需要额外多占3.75个子，黑棋占地要184.25子以上，才算赢，有分数子，是因为有些位置黑与白都不愿意占据

围棋的必胜策略

要么使先走的人必然获胜，要么使后走的人必然获胜（博弈论思想）

AlphaGO的算法

基于DeepMind公司的论文

算法构建了三个深度策略网络，一个深度估值网络

输入：当前棋盘状态。

输出：下一步的走法。

训练数据：KGS Go SERVER上的三亿个样本。

网络设置：13层深度网络

以训练的为基础训练了

1、网络结构、输入输出与完全一样

2、一开始初始化网络参数

3、参数更新策略，自己和自己下棋，不断下下去直到分出胜负。

为了避免对局网络过于相似的过拟合，应用了如下策略：

1、将监督学习的网络复制作为增强学习的初始网络

2、将当前版本的网络与之前的某个随机的版本对局，得到棋局的结果

3、根据器具结果利用REINFORCE算法更新参数最大化期望结果

4、每500此迭代就复制当前网络参数到对手池中用于第二步。

接下来我们要训练一个，来预测估值函数

可以利用训练更好的

利用minibatch进行参数更新

z是奖励函数

最终是利用和进行下棋

下棋方法：蒙特卡洛树搜索

ZL是利用不断相互走棋后对胜利的预测

V（SL)是当前局面胜利的概率

Q（s，a）在s状态下采用行为a胜率的估计

at是最终决定的走棋方式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自学机器学习笔记（十八）

围棋基本规则：中国规则：无气自提，禁止全局同形，地大者胜无气自提：气：每颗子的上下左右空着的地方，都是这颗子的气，如：而且要把上下左右相连的，同样颜色的子看成一个整体来统计气的数量无气自提：走一步后，使对方一片棋子处于完全无气状态，这片棋子要被移出棋盘‘当某一个格点已经没有气了，哪怕它是空的，也不允许走到这里了，这里叫做禁着点当一方走到没有气的地方，能提掉对方的棋子时，允许它走到这里并提掉对方棋子禁止全局同形：双方下每一步棋后，棋子上黑子、白字和空格的分布，不能和以.
复制链接

扫一扫

梦忆师 CSDN认证博客专家 CSDN认证企业博客

码龄4年

27: 原创

51万+: 周排名

196万+: 总排名

2万+: 访问

: 等级

276: 积分

744: 粉丝

3: 获赞

3: 评论

36: 收藏

私信

关注

热门文章

最新评论

自学机器学习笔记（十）
limerence warrior: 请问作者可以详解一下nn_train()和nn_test()函数是M语言自带的吗？还是自定义？
自学机器学习笔记（五）
梦忆师: 有一说一，这个flag到后面完全就没有出现过，我认为就是为了知道循环了多少次放在这里的，看看这个文件有多大。
自学机器学习笔记（五）
orehsoul: 引用「flag = flag+1;」这个flag代表什么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。