Mastering the game of Go without human knowledge 伪代码

好不容易啃完了文章 写一个psuedo code下次看起来方便。文章写得比较清晰 但是也有比较迷惑的地方 琢磨了很久 看的时候遇到相似问题的朋友也可以从这找到点提示。
原文链接:AlphaGo-Zero

从性能上讲AlphaGo-Zero>AlphaGo-Master>AlphaGo-Fan等其他以打败棋手命名的围棋机。Zero性能最好的原因在于,他全程采用非监督学习,数据全部来源于self-play buffer。并且采用边训练边validate的模式,有效地防止了过拟合。非监督的好处在于,机器可以学习到先前人们没有总结过的棋谱。AlphaGo-Master和AlphaGo-Fan等都是输入棋谱作为监督(master对神经网络结构进行了改善),因而效果不如zero。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值