Alpha Go和Alpha Go Zero的文献阅读

Nature的Alpha Go和Alpha Go Zero原文阅读:

Mastering the game of Go with deep neural networks and tree search
复杂度过高的解决方案:
1.广度:策略p(a|s)是状态s上动作a的概率分布;
2.深度:在状态s处截断搜索树,并用预测状态s的结果的近似值函数v(s)≈v*(s)替换s下的子树的实际情况。

本文工作:

A.训练过程
1.SL(监督学习)策略网络:利用监督学习来预测围棋中专家的动作。最终输出概率分布函数P_sigma(a|s),此外还提供了速度更快但精确度低一些的小型特征策略网络P_pi(a|s)。前后两个策略的主要区别在于网络的规模不同。
2.RL策略网络:利用刚刚的P_sigma,让它和先前随机某一次迭代后的P_sigma*进行比拼,从而防止网络过度依赖(有点overfitting的意思)。如果P_sigma在t时刻赢了,则z=+1,反而反之。随后在每个时间步长t处,更新权重。
3.此外,利用RL策略网络进行自我博弈,达到了最低过拟合程度。
4.利用刚刚的RL策略网络生成价值网络v(但是好像没有看到是如何生成的)。

B.测试过程
1.MCTS的数据分为三部分:Q(s,a)动作价值,N(s,a),P(s,a)。其中Q取决于其子树中所有模拟的估值函数V,而V又取决于叶子的价值函数v和结果z。

在这里插入图片描述

2.而推理最优的公式为:

在这里插入图片描述

解决了如下问题:
1.AlphaGo的推理寻优公式:根据B-2提到的公式。
2.快速走子:A-1中提到的速度更快但精确度低的小型特征策略网络P_pi(a|s)。
3.看完Nature的原著发现,UCB即为上述内容的u(s,a),且由于本文对MCTS的评价是对原有模型的更好的改进,因此类似的公式(B-2)是同时在被训练和测试时使用的。

Mastering the Game of Go without Human Knowledge
1.新的f_theta:该神经网络将位置及其历史记录的原始棋盘表示作为输入,输出(p,v),p表示下一步走子的可能性,v表示当前的获胜概率。相当于组合了上文中的策略网络P和价值网络V,但实现起来需要批量归一化技术和非线性整流器(???),还有残差(Res.)模块。
2.自走强化学习。程序和自己下T轮棋,每一轮都会根据刚才的网络f_theta指导MCTS运行,然后根据搜索出来的概率得到下一步方案,打完T轮后判胜方。而后根据上述结果继续训练,更新的新模型用于新的自走。这样做可以让新模型更接近MCTS,从而达到更好的效果。
3.MCTS内部仍然是存储P,Q,N三个部分。
过程为:从根节点择优下降→扩展节点并求算该状态的预估胜算V→利用V更新祖先链上的Q和N。
其中,f_theta的损失函数是特制的:交叉熵和MSE(但没有具体指出其意义)

其中,c是控制过拟合的参数。

一个看起来还不错的介绍本文的博客:
https://blog.csdn.net/sinat_31428707/article/details/82218575

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值