【论文理解】AlphaGo:Mastering the game of Go with deep neural networks and tree search

AlphaGO是什么?

alphago是一款人工智能软件,使用了蒙特卡洛搜索树+深度学习网络,使用强化学习的方法进行优化学习,在围棋领域最终打败了人类世界第一的机器学习算法。

原理

组成部分

  1. 蒙特特卡洛搜索树:记录整个棋局状态,从根节点到叶子节点,代表了一个完整的棋局。
  2. 策略网络:分为监督学习策略网络,强化学习价值网络。目标是预测当前棋局状态s下,下一步棋局动作a动作的概率。
  3. 价值网络:目标是当前状态s,和下一步动作a的取胜概率。

监督学习策略网络

从人类棋局中随机采样(s,a),其中s代表当前的棋局状态,而a是人类棋局中,下一步动作a,目标是优化最大化概率,学习人类落子规律。
在这里插入图片描述

强化学习策略网络

基于监督学习策略网络的基础上,将策略网络初始化为监督学习策略网络的参数权重,类似于bert的预训练方式。
然后基于当前的策略网络和监督学习策略网络历史上的一个版本进行对弈,然后使用最终棋局输赢最为强化学习的reward,最终最大化a落子的概率函数。
在这里插入图片描述

强化学习价值网络

问题:如果说用已经完成的棋局去监督学习的方法学习价值网络的话,我们得到的结果将是过拟合的,因为能够赢得棋局的状态都是很相似的局面,监督网络会记住所有的棋局状态,泛华性不是太好。
所以使用强化学习的方法,生成了大量的自我对弈的棋局数据,然后进行采样。对弈数据是用强化学习策略网络生成的。

用策略网络和价值网络搜索

搜索下一个行动a,使用当前节点上价值Q和访问次数N,和一个先验的概率P共同生成的,生成公式如下:
在这里插入图片描述
在这里插入图片描述
每个节点只用策略网络预估一次,策略网络生成的P就是前面节点保存的先验概率。
叶子节点的价值使用策略网络和价值网络共同决定,其中Zl就是使用策略网络随机对弈产生的结果
在这里插入图片描述

最终使用上面的公式,迭代更新节点的价值Q和访问次数N
在这里插入图片描述

结论

AlphaGo是人工智能第一次在没有让子的情况下,打败了人类世界第一,对于人工智能来说,是一次里程碑意义的尝试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WitsMakeMen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值