谷歌AlphaZero发表在最新一期《Science》上的几点解读

最新推荐文章于 2022-06-12 17:58:07 发布

AI启蒙研究院

最新推荐文章于 2022-06-12 17:58:07 发布

阅读量484

点赞数 1

如何评价谷歌在Science上发表的这篇论文?

谷歌旗下的deepmind公司又在Science上发表的论文，论文描述了AlphaZero如何快速学习每个游戏，如何从随机对弈开始训练，在没有先验知识、只知道基本规则的情况下，成为史上最强大的棋类人工智能。该论文的初稿去年就挂在网上了，我原来判断这篇文章不会在Nature或者Science上发表，因为创新点实在太小了，这也Science正式出版论文后，并没有掀起多大波澜的原因。

难到真的与去年版本没进步么?

正式出版内容与去年网上内容基本类似。只在一些细节上的差别：

1、有些游戏纯在平局的结果，因此在最方误差项目（z-v）2项中考虑了z=0的情况。

2、围棋的棋局具有平移和旋转不变，而国际象棋和日本将棋的规则是不对称的，为了使得方法的统一性，这版的AlphaZero并没将再次旋转90、180、270度后的数据纳入训练数据。

3、过往的AlphaGO Zero的训练参数是阶梯式的进步，而AlphaZero是连续进步的。具体而言，在AlphaGO Zero的训练过程中，随着自我对局结束，选取胜利一方的参数作为训练结果，这时有可能出现阶梯式突变；而AlphaZero一直维护同一个参数，自我对局的数据只是用来作为训练。从以前的阶梯式训练（每55%胜率获胜的玩家作为下一轮产生训练数据的模型），到连续训练（也就是维护单一的神经网络不断迭代更新），省去评估的环节。

综合来看，技术上有什么创新?

与二十年前的深蓝相比，这次Alpha的最大创新是利用近十年来的新技术的一次综合演练。如：用深度神经网络取代了人工特征及评估函数，用蒙特卡洛树搜索（MCTS）算法取代了alpha-beta搜索既准确又快速的降低系统的搜索量；用强化学习的方法自动更新系统参数。很难说这三种技术到底哪个起的作用大，非要排个序的话，我个人觉得是强化学习，就像论文的标题所示，这是一种在强化学习框架下的围棋、象棋、将棋系统。

有个有意思的点：执白比执黑赢的概率大13%。说明围棋规则对黑白两方而言不是平等的，如果AlphaZero能指导围棋规则修订，那它比只会下棋更有意义。

AlphaGO这么成功，适用高校研究么？

如果真正像要搭建一个Alphazero，论文给出了一些具体的实现细节。如在MTSC阶段，学习率是0.2，且在在30万和50万训练步骤以后，学习率调整为0.02,0.002，狄拉克噪声的参数为0.3。但作为研究者而言却是费时费力的事情，尤其是学生不可能像谷歌那样动用巨大的计算资源，每调整一次参数花很长时间，这也是高校无法做类似研究的原因。

未来还能在哪些地方做改进？

论文里虽然说这是机器下棋的终极版本，谷歌说以后也不会再更新这个系统了（毕竟已经远超人类冠军的水平，没动力再改进算法）。但是我觉得这个模型还有些啰嗦，模型的输入是棋局，输出是候选落子的概率及落子后的胜率。最终的版本不需要评价落子后的概率，而是直接以候选落子概率最大点作为输出。