阿法狗的智慧，被赋予职业围棋200段的选手

最新推荐文章于 2020-04-23 21:59:54 发布

ch0831

最新推荐文章于 2020-04-23 21:59:54 发布

阅读量740

点赞数

分类专栏：深度学习，机器学习，人工智能文章标签：人工智能机器人计算机谷歌

本文链接：https://blog.csdn.net/ch0831/article/details/77941831

版权

深度学习，机器学习，人工智能专栏收录该内容

6 篇文章

订阅专栏

AlphaGo是Google DeepMind出品的人工智能机器人。去年10月，AlphaGo就在没有让子的情况下以5:0的成绩战胜了欧洲围棋冠军、职业围棋二段樊麾。

这是1997年IBM深蓝计算机在国际象棋上战胜人类之后，人工智能追赶人类的又一重大里程碑。

本文纯从技术角度，比较浅层的价绍一下阿法狗的组成：估值网络、走棋策略网络、树搜索。

1估值网络

估值网络，也叫价值网络，他是对当前的棋面进行估计，就是对当前的局面进行评估，计算一下谁领先，领先多少。就是估计两方赢得概率。在估计的同时，都假设每一方都是由阿法狗自己扮演的，因为它无法给对手建模。

2走棋策略网络

它决定了棋局的状态并且选择下一步的走法。原理是，首先它先由专家训练，同时预测他们下一步怎么走，然后，他跟自己下棋，下数百万次后，再知道系统下棋，每一步都是这样执行，直到取得胜利。

3树搜索（蒙特卡洛树搜索）

在之前的人机对战中，机器人主要用到的算法就是蒙特卡罗数收缩，比如90年代的”深蓝“。在阿法狗中，树搜索把前两者结合起来，模拟下一步会发生什么，并通过策略网络选择最佳的落子地点。

4策略网络+估值网络的构成

阿法狗有两个大脑（深度强化学习D），一个是估值网络，一个是策略网络，这两个大脑相互作用，完成一个一个与人类的对弈。让我想到一句话——打遍天下无敌手，说的就是阿法狗，就目前的结果来说，阿法狗在围棋界对人来来说真是天下无敌了！

言归正传，策略网络说白了就是一个拥有13层的卷积神经网络，之所以选择CNN，是因为棋盘就好比是一个19*19的图片，棋盘中的放个就好比是图片中的一个像素点，图片中的每个像素点之间是都有关联的，同样在围棋中，每个节点的棋子之间都是有联系的，因此选择CNN那是必须的了。

估值网络，他是对当前的局面的一种估计，对输赢的概率进行一种近似的估计，所以它并不是一个求精确值得网络，那样会消耗大量的计算能力，它是一个求近似解的网络，即通过卷积神经网络的方式来计算卷积核范围的平均胜率。这样做的好处是将评价平顺化，避免过度学习。

5网络的训练

整个模型的训练数据是如何来的呢?

QQ游戏大厅（KGS围棋服务器）类似的这种，存储了大概有十万个棋局，用这些样本去训练这个网络，看人类棋手在每种棋局状态中的下一步落子，对于算法来说就是看每种图形的下一种图形是什么。也就是说，目前状态的棋局是训练集，下一步的棋局形态是训练集的人工标注，就相当于是类标签。用3000万甚至更多个人类对弈的位置信息拆解为训练集，反复训练。

估值网路是如何训练的呢？

这个部分是通过两台阿法狗对弈的方式来解决的，就是类似于生成式对抗网络（GAN），通过这种方式，系统在训练过程中积累出了正确的评价样本，通过积累的评价样本对估值网络进行训练。

阿法狗最恐怖的是在与人类的对弈中，在你在想到下一步要如何走的时候，阿法狗已经猜出他可能的下一步，在人类思考的时候，它也把未来的几步都给想到了，并把相应的成功率给计算出来了。

总结：

从比较浅的层面上价绍了阿法狗，它的成功，把深度强化学习（DQN）以及生成式对抗网络（GAN）的技术提高到了一个新的层次。DQN和GAN目前在人工智能领域取得的成就已经让我们惊讶不已，但是这只是人工智能领域一个新的开端，未来的路还很漫长，任重而道远。

联系方式

个人微信