AlphaGo Zero论文中文版 :Mastering the game of Go without human knowledge
绪论
长久以来,人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近,AlphaGo已经成为第一个在围棋比赛中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估棋局和选择动作。这些神经网络是利用人类专家的动作通过监督学习训练而来,然后通过强化学习来进行自我对弈。这里,我们引入了一种完全独立的强化学习算法,不需要采用人类数据或是基于游戏规则的引导或领域知识。AlphaGo成为自己的老师:通过训练神经网络来完成AlphaGo的动作选择的预测和对弈的胜者。这个网络还提高了树搜索的能力,使得能够在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始,我们新的程序—AlphaGo Zero达到了超级专家的水平,在与之前开发的AlphaGo的对弈中,取得了100-0的完胜。
引言
人工智能领域取得的很多进步都是通过训练监督学习系统去复制人类专家的决策实现的。然而,专家数据集通常是昂贵的,不可靠的,且难以获取。即使可以获取可靠的数据集,它们也可能对用这样的方法训练出的系统性能造成限制。相比之下,用自己经验训练出来的强化学习系统,在原则上允许它们超越人的能力,且在人类专业知识不足的领域中也能运行。最近利用强化学习训练的深度神经网络在实现这个目标上已经有了飞速的进步。这些系统在诸如Atari6,7的计算机游戏领域和3D 虚拟环境领域中的表现已经超出人类。然而,在就人类智能而言最具有挑战的领域,仍要求在广阔的搜索空间中拥有精确而复杂的预测能力--例如围棋,一直被人工智能视为最大的挑战。在这些领域中,完全的基因方法还不能达到人类的水平。
AlphaGo是第一个在围棋游戏上