AlphaGo Zero到底强在哪里?

AlphaGo Zero通过自我对弈的强化学习,无需人类棋谱,仅使用棋盘黑白棋子作为输入,采用单一神经网络替代先前的策略和价值网络,并简化搜索树,展现出强大的围棋技能。去除人类数据后,避免了思维定式,优化点包括加速训练和提升性能,特别是引入MCTS概率到损失函数中,以及采用残差网络增强网络能力。
摘要由CSDN通过智能技术生成

当然,最好的材料还是看原版论文。原版论文都没看就别跟别人凑热闹,瞎逼逼了。AlphaGo之前的论文也需要仔细看看,不然可能不明白diff在什么地方。

  1. AlphaGo Zero《Mastering the Game of Go without Human Knowledge》
  2. AlphaGO Lee(跟李世石对战的版本)《Mastering the game of Go with deep neural networks and tree search》之前做过笔记

其实论文里面已经说了。
Our program, AlphaGo Zero, differs from AlphaGo Fan and AlphaGo Lee 12 in several important aspects.

  1. First and foremost, it is trained solely by self-play reinforcement learning, starting from random play, without any supervision or use of human data. 之前的版本提到需要人类棋谱作为训练样本,这是比较让人诟病,会让人觉得这跟我们想要的AI有点距离。虽然学了人类棋谱之后,self-play会继续迭代加强,有点“智能”的样子。那旧版AlphaGo能否不要人类棋谱呢?我后来也想过这个问题。毕竟围棋是一个规则很明确的游戏,这些人类棋谱顶多起到一个加速收敛的作用,如果没有这些棋谱,顶多让机器自己去explore。当然代价就是会多花费很多时间,毕竟围棋的解空间太大了。不过这次AlphaGo Zero的研究结果表明,用人类的棋谱其实也有side-effect,会形成“思维定式”,用神经网络里的术语就是陷入局部最优。所以去掉之后发现效果更好了。当然,带来的另外一个疑问就是如何快速收敛?
  2. Second, it only uses the black and white stones from the board as input features. 至少之前的fast rollout是有用hand-craft特征的。现在完全没用hand-craft特征了,离“人工智能”又更近了。
  3. Third, it uses a single neural network, rather than separate policy and value networks. 之前提到,policy network和value network训练的目的虽然不太一样,但单纯从效果上看,这两个网络都可以当做AI,所以,一个很自然的想法就是合并。插一句题外话,在object detection领域用同一网络同时实现bounding Box的回归和target的classification也不是没有。这个优化
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值