阿法狗的智慧,被赋予职业围棋200段的选手

AlphaGo是Google DeepMind出品的人工智能机器人。去年10月,AlphaGo就在没有让子的情况下以5:0的成绩战胜了欧洲围棋冠军、职业围棋二段樊麾。

这是1997年IBM深蓝计算机在国际象棋上战胜人类之后,人工智能追赶人类的又一重大里程碑。

    本文纯从技术角度,比较浅层的价绍一下阿法狗的组成:估值网络、走棋策略网络、树搜索。




1估值网络




估值网络,也叫价值网络,他是对当前的棋面进行估计,就是对当前的局面进行评估,计算一下谁领先,领先多少。就是估计两方赢得概率。在估计的同时,都假设每一方都是由阿法狗自己扮演的,因为它无法给对手建模。




2走棋策略网络




它决定了棋局的状态并且选择下一步的走法。原理是,首先它先由专家训练,同时预测他们下一步怎么走,然后,他跟自己下棋,下数百万次后,再知道系统下棋,每一步都是这样执行,直到取得胜利。




3树搜索(蒙特卡洛树搜索)




在之前的人机对战中,机器人主要用到的算法就是蒙特卡罗数收缩,比如90年代的”深蓝“。在阿法狗中,树搜索把前两者结合起来,模拟下一步会发生什么,并通过策略网络选择最佳的落子地点。



4策略网络+估值网络的构成




    阿法狗有两个大脑(深度强化学习D),一个是估值网络,一个是策略网络,这两个大脑相互作用,完成一个一个与人类的对弈。让我想到一句话——打遍天下无敌手,说的就是阿法狗,就目前的结果来说,阿法狗在围棋界对人来来说真是天下无敌了!

言归正传,策略网络说白了就是一个拥有13层的卷积神经网络,之所以选择CNN,是因为棋盘就好比是一个19*19的图片,棋盘中的放个就好比是图片中的一个像素点,图片中的每个像素点之间是都有关联的,同样在围棋中,每个节点的棋子之间都是有联系的,因此选择CNN那是必须的了。

    估值网络,他是对当前的局面的一种估计,对输赢的概率进行一种近似的估计,所以它并不是一个求精确值得网络,那样会消耗大量的计算能力,它是一个求近似解的网络,即通过卷积神经网络的方式来计算卷积核范围的平均胜率。这样做的好处是将评价平顺化,避免过度学习。



5网络的训练




整个模型的训练数据是如何来的呢?

QQ游戏大厅(KGS围棋服务器)类似的这种,存储了大概有十万个棋局,用这些样本去训练这个网络,看人类棋手在每种棋局状态中的下一步落子,对于算法来说就是看每种图形的下一种图形是什么。也就是说,目前状态的棋局是训练集,下一步的棋局形态是训练集的人工标注,就相当于是类标签。用3000万甚至更多个人类对弈的位置信息拆解为训练集,反复训练。

估值网路是如何训练的呢?

    这个部分是通过两台阿法狗对弈的方式来解决的,就是类似于生成式对抗网络(GAN),通过这种方式,系统在训练过程中积累出了正确的评价样本,通过积累的评价样本对估值网络进行训练。

    阿法狗最恐怖的是在与人类的对弈中,在你在想到下一步要如何走的时候,阿法狗已经猜出他可能的下一步,在人类思考的时候,它也把未来的几步都给想到了,并把相应的成功率给计算出来了。



总结:

    

    从比较浅的层面上价绍了阿法狗,它的成功,把深度强化学习(DQN)以及生成式对抗网络(GAN)的技术提高到了一个新的层次。DQN和GAN目前在人工智能领域取得的成就已经让我们惊讶不已,但是这只是人工智能领域一个新的开端,未来的路还很漫长,任重而道远。



联系方式

个人微信


公众号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值