阿法狗是如何工作的？卡内基梅隆大学博士用54页PPT给你答案

最新推荐文章于 2024-04-28 09:36:30 发布

weixin_33974433

最新推荐文章于 2024-04-28 09:36:30 发布

阅读量158

点赞数

文章标签：人工智能大数据

原文链接：https://yq.aliyun.com/articles/81459

版权

0?wx_fmt=png

最绚烂的火花，永远产生于森然秩序被打破，天才超然于规律之外的那一瞬间

卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理

在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中，李世石执黑负，无缘两连胜。至此，人机大战五番棋全部结束，李世石1-4输掉对决，无缘100万美元赢棋奖金。

为了让大家从另外一面了解AlphaGo，Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon（个人主页：http://shanemoon.com/）做了一次演讲，他就读于卡内基梅隆大学著名的语言技术研究所，纯干货讲稿PPT奉上。

0?wx_fmt=png

AlphaGo是如何工作的

演讲人：Shane Moon

0?wx_fmt=png 2015年10月，AlphaGo与欧洲围棋冠军樊麾二段对弈

0?wx_fmt=png

2016年3月9日-15日，AlphaGo与世界冠军李世乭九段展开对弈 0?wx_fmt=png

0?wx_fmt=png

电脑围棋人工智能

0?wx_fmt=png
电脑围棋人工智能：定义

我们可以把棋盘想象成一个矩阵

0?wx_fmt=png
当给出s，电脑围棋运算出最优移动a，得到s'

0?wx_fmt=png

电脑围棋人工智能：一个可行的概念？

假设它模拟所有可能的棋盘落子位置呢？

0?wx_fmt=png

0?wx_fmt=png

0?wx_fmt=png

进行这样的模拟直到游戏结束，然后报告输赢结果

0?wx_fmt=png
这是不可能的，据说所有可能的棋盘排布种类总数超过了宇宙中原子的数量

0?wx_fmt=png

关键在于：缩减搜索空间

0?wx_fmt=png 缩减搜索空间的第一种方法：减少可选择的着法（横向缩减）

0?wx_fmt=png 从搜索出的着法候选中把这些提前剔除

0?wx_fmt=png

缩减搜索空间的第二种方法：提前评估落子位置（纵向缩减）

0?wx_fmt=png 假设这里有一个函数可以计算V，即s的盘面形势评估

0?wx_fmt=png

缩减搜索空间的两种方式：减少可选择的着法（横向），提前评估落子位置（纵向）

0?wx_fmt=png

减少可选择的着法

得到P（下一次落子|现在的位置）

0?wx_fmt=png 减少可选择的着法：模仿专业高手的着法（在指导下学习）

0?wx_fmt=png

0?wx_fmt=png

建立棋盘的预测模型 0?wx_fmt=png

0?wx_fmt=png

0?wx_fmt=png

将预测模型模拟为矩阵进行运算

0?wx_fmt=png

这个深度学习过程要经过13层“CNN”

0?wx_fmt=png

CNN即卷积神经网络，是一种强大的图像识别任务处理模型，它将输入的图像通过卷积层抽象化

0?wx_fmt=png 它们利用卷积神经网络模型去评估对局形势

0?wx_fmt=png

围棋：胜利的关键在于抽象能力

卷积神经网络：抽象是其特长

0?wx_fmt=png

模仿专业高手着法的模型

0?wx_fmt=png

减少可选择的着法：通过自我对弈来提高（巩固学习） 0?wx_fmt=png

两个专业高手着法模仿模型进行对弈 0?wx_fmt=png

0?wx_fmt=png

输赢两种结局 0?wx_fmt=png

更新模型，不断进行新旧模型之间的对弈，最后一个版本的模型和初始版本对弈已经有了八成赢面 0?wx_fmt=png

盘面形势评估

0?wx_fmt=png
使用两个模型：上文最新版本的模仿模型与价值预测模型（复盘）

0?wx_fmt=png
缩减搜索空间：横向上减少可选择的着法（策略网络），纵向上进行盘面形势评估（价值网络）

0?wx_fmt=png 前瞻：蒙特卡洛树形研究模型

0?wx_fmt=png 结果：AlphaGo不同成分的组合所呈现的表现李世乭九段与AlphaGo的能量功耗对比

0?wx_fmt=png

据估测，AlphaGo的水准在业余五段左右

0?wx_fmt=png
将CPU/GPU资源运用到极致？

0?wx_fmt=png

AlphaGo每天都学习数以百万计的对局

0?wx_fmt=png

如果AlphaGo学习了李世乭的策略会怎样？谷歌表示他们不会将李世乭的比赛数据用于AlphaGo的训练数据，即使它真的学习了，仅仅与李世乭对弈几盘就修改在海量数据下训练过的模型也是很难的 0?wx_fmt=png AlphaGo的弱点是什么？留待研究

0?wx_fmt=png

0?wx_fmt=png

原文发布时间为：2016-03-22

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

weixin_33974433

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
阿法狗是如何工作的？卡内基梅隆大学博士用54页PPT给你答案

最绚烂的火花，永远产生于森然秩序被打破，天才超然于规律之外的那一瞬间卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中，李世石执黑负，无缘两连胜。至此，人机大战五番棋全部结束，李世石1-4输掉对决，无缘100万美元赢棋奖金。为了让大家从另外一面了解AlphaGo，C...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。