浅谈AlphaGo

       由DeepMind团队开发的AlphaGo的大放异彩使得研究者对人工智能、深度学习等有了更深入的了解和更多的信心。
       在AlphaGo之前,由IBM开发的智能国际象棋系统Deep Blue也击败了世界冠军。但是Deep Blue和AlphaGo的核心技术有很大差别,前者主要是依赖于超级强大的计算机资源,使用brute-force的方法尝试很多走棋方法,是通过优越的计算处理速度来战胜人类,而后者AlphaGo则是采用了深度学习和强化学习,进行更加智能的判断,因为相比于国际象棋走棋的复杂度 10^46 ,围棋有更多的落子方式,有更多的不确定性,复杂度有10^172 。
       AlphaGo主要包含3部分:蒙特卡洛树搜索(Monte Carlo tree search)、估值网络(value network)走棋网络(policy network)。Value network和policy network是AlphaGo的真正智慧所在。
       Policy network实际上就是提供走棋策略,针对给定的当前棋盘,预测下一步应该在哪里落子。这一步涉及到了学徒学习,根据人类专家的决策过程范例,比如大量人类围棋高手对弈的棋谱,将人类专家决策轨迹数据(轨迹包含state/棋盘和action/落子序列)中的“state-action对“抽取出来,构造新的数据集。基于构造的数据集,学习得到策略模型,能以57%的准确率预测人类围棋高手下一步的落子点。这在走棋方式繁多的围棋中,已经是很高的准确率了。
       Value network主要是做评估,针对当前棋盘,判断黑棋赢的概率。AlphaGo主要是通过落子网络自己与自己对弈,产生数据集,训练估值网络,进一步提升落子准确率。
       与Deep Blue的纯暴力搜索不同,Monte Carlo tree search会根据Policy network和Value network给出的策略和估值,评估采取当前落子行为后的局势,进而选择最佳走棋动作。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值