谷歌AlphaZero发表在最新一期《Science》上的几点解读

 

      如何评价谷歌在Science上发表的这篇论文?

  谷歌旗下的deepmind公司又在Science上发表的论文,论文描述了AlphaZero如何快速学习每个游戏,如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下,成为史上最强大的棋类人工智能。该论文的初稿去年就挂在网上了,我原来判断这篇文章不会在Nature或者Science上发表,因为创新点实在太小了,这也Science正式出版论文后,并没有掀起多大波澜的原因。


难到真的与去年版本没进步么?

  正式出版内容与去年网上内容基本类似。只在一些细节上的差别:

  1、有些游戏纯在平局的结果,因此在最方误差项目(z-v)2项中考虑了z=0的情况。

  2、围棋的棋局具有平移和旋转不变,而国际象棋和日本将棋的规则是不对称的,为了使得方法的统一性,这版的AlphaZero并没将再次旋转90、180、270度后的数据纳入训练数据。

  3、过往的AlphaGO Zero的训练参数是阶梯式的进步,而AlphaZero是连续进步的。具体而言,在AlphaGO Zero的训练过程中,随着自我对局结束,选取胜利一方的参数作为训练结果,这时有可能出现阶梯式突变;而AlphaZero一直维护同一个参数,自我对局的数据只是用来作为训练。从以前的阶梯式训练(每55%胜率获胜的玩家作为下一轮产生训练数据的模型),到连续训练(也就是维护单一的神经网络不断迭代更新),省去评估的环节。

      综合来看,技术上有什么创新?

  与二十年前的深蓝相比,这次Alpha的最大创新是利用近十年来的新技术的一次综合演练。如:用深度神经网络取代了人工特征及评估函数,用蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索既准确又快速的降低系统的搜索量;用强化学习的方法自动更新系统参数。很难说这三种技术到底哪个起的作用大,非要排个序的话,我个人觉得是强化学习,就像论文的标题所示,这是一种在强化学习框架下的围棋、象棋、将棋系统。

  有个有意思的点:执白比执黑赢的概率大13%。说明围棋规则对黑白两方而言不是平等的,如果AlphaZero能指导围棋规则修订,那它比只会下棋更有意义。

       AlphaGO这么成功,适用高校研究么?

  如果真正像要搭建一个Alphazero,论文给出了一些具体的实现细节。如在MTSC阶段,学习率是0.2,且在在30万和50万训练步骤以后,学习率调整为0.02,0.002,狄拉克噪声的参数为0.3。但作为研究者而言却是费时费力的事情,尤其是学生不可能像谷歌那样动用巨大的计算资源,每调整一次参数花很长时间,这也是高校无法做类似研究的原因。

      未来还能在哪些地方做改进?

  论文里虽然说这是机器下棋的终极版本,谷歌说以后也不会再更新这个系统了(毕竟已经远超人类冠军的水平,没动力再改进算法)。但是我觉得这个模型还有些啰嗦,模型的输入是棋局,输出是候选落子的概率及落子后的胜率。最终的版本不需要评价落子后的概率,而是直接以候选落子概率最大点作为输出。

往期回顾:

滴滴如何使用人工智能来欺骗司机和乘客的?

从“猜画小歌”背后的AI原理,教大家如何得高分

何必心中无码,AI让你眼见为实

党给我智慧给我胆,梯度给我努力的方向

【通俗理解】凸优化

【通俗理解】区块链

外卖机器人诞生!快递小哥会失业吗?

刚刚,有位大神用AI搞定了多位女神

你敢@微信官方,不怕它真送你一顶绿色圣诞帽?

别人都在晒18岁照片,而我却在学习~

今日头条败给了色情?AI算法不行,还是另有隐情?

【机器学习】python凭什么能被纳入教材

【机器学习】朴素贝叶斯算法分析

【机器学习】主成分(PCA)算法分析

【机器学习】非线性回归算法分析

【机器学习】线性回归算法分析

  读AlphaZero论文随想

 进击的TensorFlow

 【通俗理解】协方差

【通俗理解】贝叶斯统计

 从一个双控开关思考神经网络(下)

 从一个双控开关思考神经网络(上)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值