好不容易啃完了文章 写一个psuedo code下次看起来方便。文章写得比较清晰 但是也有比较迷惑的地方 琢磨了很久 看的时候遇到相似问题的朋友也可以从这找到点提示。
原文链接:AlphaGo-Zero
从性能上讲AlphaGo-Zero>AlphaGo-Master>AlphaGo-Fan等其他以打败棋手命名的围棋机。Zero性能最好的原因在于,他全程采用非监督学习,数据全部来源于self-play buffer。并且采用边训练边validate的模式,有效地防止了过拟合。非监督的好处在于,机器可以学习到先前人们没有总结过的棋谱。AlphaGo-Master和AlphaGo-Fan等都是输入棋谱作为监督(master对神经网络结构进行了改善),因而效果不如zero。