alphago真的改变世界的技术吗?

1997年,IBM的深蓝系统击败了人类的国际象棋世界冠军,Garry Kasparov。那时,这场胜利被认为是人工智能的一个里程碑。但是,结果证明,深蓝的技术只在象棋领域有用,在其他领域并没有什么用。计算机技术并没有迎来一场革命。
最近,alphago击飞了一位实力强悍的人类选手,相比于上次,有不同吗?
我相信答案是肯定的,但是原因可能不是你之前听到的一些。许多文章都提供了比下棋更难的专家证词,使这场胜利更加令人印象深刻。或者他们说,我们不希望电脑在未来10年内一帆风顺,所以这是一个更大的突破。有些文章提供了(正确的!)观察到围棋比下棋有更多的潜在位置,但他们不能解释为什么这会给计算机带来比人类更大的困难。
换句话说,这些论点并没有解决核心问题:导致AlphaGo成功的技术进步会有更广泛的影响吗?为了回答这个问题,我们必须首先了解导致AlphaGo的进步与导致深蓝的进步在本质上是不同的,更重要。
在国际象棋中,初学者被教导棋子价值的概念。在一个体系中,骑士或主教值三个卒子。一辆车,移动范围更大,值五个兵。王后,拥有最大的范围,是值得九卒。国王有无限的价值,因为失去它意味着失去游戏。
您可以使用这些值来评估潜在的移动。放弃一个主教来拿走你对手的车?这通常是个好主意。放弃一个骑士和一个主教来换取一辆车?不是个好主意。
价值观念在计算机象棋中至关重要。大多数计算机象棋程序搜索数百万或数十亿个动作和反动作的组合。程序的目标是找到一系列的动作,使程序的棋盘位置的最终值最大化,不管对手的动作顺序是什么。
早期的国际象棋程序使用“一个主教等于三个卒”这样的简单概念来评估棋盘位置,但后来的程序使用了更详细的国际象棋知识。例如,深蓝在用于评估董事会位置的功能中结合了8000多个不同的因素。深蓝色不仅仅是说一辆车等于五个兵。如果一个颜色相同的兵在车前面,兵会限制车的移动范围,从而使车的价值降低一点。然而,如果兵是“杠杆”,也就是说它可以通过俘获敌人的兵而离开车的方向,深蓝色认为兵是半透明的,不会降低车的价值。
这种想法依赖于对象棋的详细了解,对深蓝的成功至关重要。根据深蓝队的技术文件,这种半透明的杠杆兵的概念对深蓝在对阵卡斯帕罗夫的第二场比赛中的表现至关重要。
最终,深蓝的开发者使用了两个主要的想法。第一种方法是建立一个包含大量详细的象棋知识的函数来评估任何给定的棋盘位置。第二种方法是利用强大的计算能力来评估许多可能的位置,挑选出迫使最佳最终董事会位置的移动方式。
如果你把这个策略应用到行动中会发生什么?
事实证明,你在尝试时会遇到一个难题。问题在于如何评估董事会的职位。顶级玩家使用很多直觉来判断一个特定的棋盘位置有多好。例如,他们会对一个“良好形状”的棋盘位置做出含糊不清的、听起来很含糊的陈述,而且还不清楚如何在简单、定义明确的系统(如棋子的估值)中表达这种直觉。 现在你可能认为这只是一个努力工作并想出一个评估董事会职位的好方法的问题。不幸的是,即使经过几十年的尝试,使用传统的方法,仍然没有明显的方法应用搜索策略,这是如此成功的国际象棋和围棋程序仍然令人失望。2006年,随着所谓的蒙特卡洛树搜索算法的引入,这一情况开始发生变化,该算法尝试了一种基于巧妙的随机模拟游戏的评估方法。但围棋项目在能力上仍然远远落后于人类玩家。似乎对董事会地位的强烈直觉是成功的关键。 关于AlphaGo的新的和重要的是,它的开发人员已经找到了一种装瓶方法,这种方法非常类似于直觉。 为了解释它是如何工作的,让我来描述AlphaGo系统,如1月份发表的论文《AlphaGo团队》中所概述的。(阿尔法戈与李·塞多尔的比赛对体系的细节进行了一些改进,但广泛的管理原则保持不变。) 首先,AlphaGo用15万个由优秀的人类玩家玩的游戏,并使用人工神经网络在这些游戏中寻找模式。特别是,它学会了以很高的概率预测一个人类玩家在任何给定位置会采取什么行动。然后,AlphaGo的设计者改进了神经网络,不断地将其与早期版本的自身进行竞争,调整网络,使其逐渐提高了获胜的机会。 这个被称为政策网络的神经网络如何学会预测好的动向? 从广义上讲,神经网络是一个非常复杂的数学模型,有数百万个参数可以通过调整来改变模型的行为。当我说网络“学习”的时候,我的意思是计算机不断地对模型中的参数进行微小的调整,试图找到一种方法来对其性能进行相应的微小改进。在学习的第一阶段,网络试图增加与人类玩家做出相同动作的可能性。在第二阶段,它试图增加在自我游戏中获胜的可能性。这听起来像是一个疯狂的策略——反复地对一些非常复杂的函数进行细微的调整——但是如果你做的足够长,有足够的计算能力,网络就会变得相当好。奇怪的是:由于没有人真正理解的原因,这是好事,因为这些改进是自动进行的数十亿次微小调整的结果。 经过这两个训练阶段,政策网络可以玩一个像样的围棋游戏,与人类业余爱好者的水平相同。但这离专业素质还有很长的路要走。从某种意义上说,这是一种在不搜索未来游戏线路和估计结果板位置值的情况下玩“走”的方式。为了超越业余水平,阿尔法戈需要一种方法来估计这些职位的价值。 为了克服这一障碍,开发人员的核心想法是让AlphaGo与自己的策略网络对抗,评估给定的董事会位置获胜的可能性。获胜的概率对这一头寸提供了粗略的估计。(在实践中,AlphaGo使用了一个稍微复杂一些的变化)然后,AlphaGo将这种评估方法与搜索许多可能的游戏线相结合,将搜索偏向于游戏线策略网络的想法是可能的。然后,它选择了迫使董事会进行最高有效估值的举措。 由此我们可以看出,AlphaGo并没有像Deep Blue在国际象棋中所做的那样,从大量详细的围棋知识出发建立起一个评估系统。相反,通过分析上千个以前的游戏并进行大量的自我游戏,AlphaGo通过几十亿个微小的调整创建了一个政策网络,每一个都只是为了进行微小的增量改进。这反过来又帮助Alphago建立了一个估值系统,它捕捉到了一个优秀的围棋玩家对不同棋盘位置价值的直觉。 这样,alphago比深蓝更激进。从最早的计算时代开始,计算机就被用来寻找优化已知函数的方法。Deep Blue的方法就是这样的:一种旨在优化一个函数的搜索,该函数的形式虽然复杂,但主要表达现有的象棋知识。它很聪明怎么搜索,但不是

现有系统的另一个局限性是,它们通常需要许多人类的例子来学习。例如,阿尔法戈学习了15万种人类游戏。这是很多游戏!相比之下,人类可以从少得多的游戏中学到很多东西。类似地,识别和操作图像的网络通常在数百万个示例图像上进行训练,每个示例图像都带有关于图像类型的注释信息。因此,一个重要的挑战是使系统能够更好地从较小的人类提供的数据集中学习,并使用较少的辅助信息。              这么说来,像AlphaGo这样的系统确实令人兴奋。我们已经学会了使用计算机系统来复制至少一些人类直觉的形式。现在我们面临着许多奇妙的挑战:扩大我们所能代表的直觉类型的范围,使系统稳定,理解它们为什么以及如何工作,以及学习更好的方法,将它们与计算机系统的现有优势结合起来。我们是否会很快学会捕捉到一些直觉判断,这些直觉判断可以用来写数学证明,也可以用来写故事或好的解释?对于人工智能来说,这是一个非常有希望的时期。

      最终,深蓝的开发者使用了两个主要的想法。第一种方法是建立一个包含大量详细的象棋知识的函数来评估任何给定的棋盘位置。第二种方法是利用强大的计算能力来评估许多可能的位置,挑选出迫使最佳最终董事会位置的移动方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值