读AlphaZero论文随想

最新推荐文章于 2019-05-28 15:44:31 发布

AI启蒙研究院

最新推荐文章于 2019-05-28 15:44:31 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/L70AShC3Q50/article/details/78784989

版权

AlphaZero在短短时间内学会了围棋、国际象棋和将棋，并且超越了先前的AlphaGo版本。其核心算法保持不变，主要区别在于神经网络的输入适应不同棋类。尽管创新有限，但其连续训练的改进提高了效率。然而，实际应用如金融领域的挑战在于数据复杂性和决策标准的不确定性。

摘要由CSDN通过智能技术生成

感觉才过一个月多，AlphaGo又进一步，推出了AlphaZero。这次除了会下围棋、还会国际象棋和将棋。做到了道德经里说的“一生多”。

据了解，AlphaZero算法可以再8个小时训练击败李世石版本AlphaGo；12小时训练击败世界顶级的国际象棋程序Stockfish；14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后，带给我们的又一全新算法，它是“更通用的版本”。

文章内容依旧是很短，不到5页的内容，基本思路与上一个版本AlphaGo Zero类似，采取将每一步蒙特卡洛数搜索MCTS的结果作为指导，优化神经网络参数，优化的误差函数就是文中的公式（一），也是文中唯一一个公式，与上一个版本一样。而且AlphaZero应用在国际象棋、将棋和围棋中，都使用同样的算法设置、网络架构和超参数。唯一不同是神经网络的输入不同。例如围棋是19*19*17；而国际象棋是8*8*119。因此，我个人估计，这个版本的文章不会再发表在《Nature》上了，毕竟创新之处不多。

这是电脑玩棋牌游戏的终极版本吗？

我觉得这还不是，因为每次落子需要在神经网络的结果基础上，再做一次优化（蒙特卡洛数搜索MCTS一次）,才能确定最终的落子位置。最终的版本我个人觉得，应该是不需要MCTS这个步骤，用神经网络的输出值作为落子结果。甚至可以更进一步，将价值估计v都去掉。

AlphaZero与AlphaGo Zero的根本区别？

从AlphaGO(对战李世石版本)、Alpha Mater（网络对战60局版本）、AlphaGo Zero（对战柯洁版本）到现在的AlphaZero。我们看到电脑下棋程序再不断进步，经历了将策略价值网络和二为一，到完全不用人类棋谱为训练数据。这次AlphaZero最大的进步是训练过程，从以前的阶梯式训练（每55%胜率获胜的玩家作为下一轮产生训练数据的模型），到连续训练（也就是维护单一的神经网络不断迭代更新），省去评估的环节。

谷歌的厉害之处在哪儿？

有钱就是人性。尤其是训练阶段动用了5000个TPU生成自我对弈，使用64个第二代TPU训练神经网络。这也都是高校研究者望尘莫及的。我们这些研究者完全能读懂文章，也了解实现细节，但是没钱。。。这个双十一我读博实验室的师弟们不是抢衣服抢电器，而是在抢购GPU，学生命苦啊，做点实验太寒碜了。

未来Alpha还会继续在哪里发力？

我个人看好游戏，因为尤其的动作参数序列化，与围棋完全一致。只是游戏的搜索空间更大，依靠谷歌财大气粗，训练模型我觉得是承受得了的。至于金融行业，Alpha的这套搞法不看好，一是自己产生的数据无法模型有上亿投资者的行为产生的数据，二是没有唯一的决策对错标准，模型误差函数定义不出来。