从零开始实现 AlphaGo(一)

围棋作为人类的娱乐游戏中复杂度最高的一个,它横竖各有 19 条线,共有 361 个落子点,状态空间高达 10 的 171 次方 $(注:宇宙中的原子总数是 10 的 80 次方,即使穷尽整个宇宙的物质也不能存下围棋的所有可能性),但是谷歌的 AlphaGo 做到了!

作为 AlphoGo 的带头人,David Sliver 及其团队可以说盛名远扬,其以前沿的目光发表了人工智能的终极目标是:AI = DL(Deep Learning)+ RL(Reinforcement Learning)。

这篇 Chat 主要带领大家一起:

  1. 了解 AlphaGo 的最基础原理:强化学习的概念;
  2. 了解强化与机器学习之间的联系与区别;
  3. 学习强化学习的组成和模型。

未来的 Chat 中我们会由浅入深,最终编程实现 AlphaGo Zero!

阅读全文: http://gitbook.cn/gitchat/activity/5c60dffd0637e737e99e9d42

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值