- 博客(1)
- 收藏
- 关注
原创 AlphaGo Zero 简析
Mastering the Game of Go without Human Knowledge 在AlphaGo Zero里,依然使用MCTS,但是去掉了每一次simulation中rollout的过程,因为这步很费时。可以看到有ab两部分,分别为自我博弈和神经网络训练。 在self-Play中,每次move都要进行一次完整的MCTS,因为对传统的MCTS进行了改进,引入edge的概念,存储Q...
2019-06-08 15:46:06 356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人