翻译前言
阿法狗 ZERO以100:0打败阿法狗 ,引起轰动,论文在Nature发表。
阿法狗 ZERO引起轰动的原因:
1.完全自学,超越人类。
2.发展出超越人类认知的新知识,新策略。
3.能够快速移植到新领域
题目(Nature论文)
Mastering the game of Go without human knowledge
作者
David Silver1*, Julian Schrittwieser1*, Karen Simonyan1*, Ioannis Antonoglou1, Aja Huang1, Arthur Guez1,
Thomas Hubert1, Lucas Baker1, Matthew Lai1, Adrian Bolton1, Yutian Chen1, Timothy Lillicrap1, Fan Hui1, Laurent Sifre1, George van den Driessche1, Thore Graepel1 & Demis Hassabis1
摘要
长久以来,人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近,AlphaGo成为了在围棋游戏中打败人类世界冠军的第一个程序。其中,AlphaGo对下棋位置的预估和选定下棋位置所使用的树搜索算法使用了神经网络。这些网络利用高段位棋手的走棋通过有监督学习的方式来训练,然后通过自我对弈来完成进行增强学习。本篇论文中我们提出了一种完全独立的增强学习算法,算法不需要人工数据,或是基于游戏规则的引导或领域知识。AlphaGo变成了自己的老师:训练一个神经网络用来完成AlphaGo的落子预测和对弈的赢家。这个网络同时还提高了树搜索的能力,带来的结果就是能够在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始,我们新的程序—AlphaGo Zero达到了超级专家的水平,在与之前开发的AlphaGo(指代和李世石对弈的AlphaGo)的对弈中,取得了100-0的完胜。
引言
利用有监督学习来复制人类专家的决策结果使得人工智能取得了长足发展。然而,专家数据通常需要大量财力,而且也存在不可靠和难以获取的缺点。甚至有的时候获取了可靠的数据之后,也会对通过这种方式训练的系统的性能加以强制限制[5]。于此相反的是,强化学习系统是通过自身的经验来完成训练的,所以在原则上他们是可以超越人类的能力,并在人类经验缺失的领域也能工作。近年来,利用强化学习训练的深部神经网络已经取得了较快的进展。这些系统在电子游戏中已经超越了人类玩家的水平,比如说Atari[6,7]和3D虚拟游戏[8,9,10]。然而,就人类智力而