【强化学习】AlphaGo Zero论文

AlphaGo Zero论文中文版 :Mastering the game of Go without human knowledge

绪论  

       长久以来,人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近,AlphaGo已经成为第一个在围棋比赛中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估棋局和选择动作。这些神经网络是利用人类专家的动作通过监督学习训练而来,然后通过强化学习来进行自我对弈。这里,我们引入了一种完全独立的强化学习算法,不需要采用人类数据或是基于游戏规则的引导或领域知识。AlphaGo成为自己的老师:通过训练神经网络来完成AlphaGo的动作选择的预测和对弈的胜者。这个网络还提高了树搜索的能力,使得能够在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始,我们新的程序—AlphaGo Zero达到了超级专家的水平,在与之前开发的AlphaGo的对弈中,取得了100-0的完胜。

引言

       人工智能领域取得的很多进步都是通过训练监督学习系统去复制人类专家的决策实现的。然而,专家数据集通常是昂贵的,不可靠的,且难以获取。即使可以获取可靠的数据集,它们也可能对用这样的方法训练出的系统性能造成限制。相比之下,用自己经验训练出来的强化学习系统,在原则上允许它们超越人的能力,且在人类专业知识不足的领域中也能运行。最近利用强化学习训练的深度神经网络在实现这个目标上已经有了飞速的进步。这些系统在诸如Atari6,7的计算机游戏领域和3D 虚拟环境领域中的表现已经超出人类。然而,在就人类智能而言最具有挑战的领域,仍要求在广阔的搜索空间中拥有精确而复杂的预测能力--例如围棋,一直被人工智能视为最大的挑战。在这些领域中,完全的基因方法还不能达到人类的水平。

       AlphaGo是第一个在围棋游戏上

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值