表面繁荣之下,人工智能的发展已陷入困境
一
五年前,总部位于伦敦的人工智能公司 DeepMind 的程序员,兴奋地看着人工智能自学玩一款经典的街机游戏。他们在一项看似「异想天开」 的任务上使用了当今最热门的技术——深度学习——掌握了 Breakout。
这是一款雅达利(Atari)开发的游戏,在游戏中,你需要用移动下方的平板,把球弹起,然后把上方的所有砖块都打消失。
深度学习,是机器进行自我教育的一种方式;你给人工智能提供大量的数据,它会自己识别模式。在这个游戏中,数据就是屏幕上的活动——代表砖块、球和玩家平板的块状像素。
DeepMind 的人工智能,一个由分层算法组成的神经网络,并不知道任何关于 Breakout 的工作原理、规则、目标,甚至如何发挥它都不清楚。编码器只是让神经网络检查每个动作的结果,每次球的弹起轨迹。这会导致什么?
事实证明,它会掌握一些令人印象深刻的技能。在最初的几场游戏中,人工智能只是控制下方的平板四处乱晃。但是玩了几百次之后,它已经开始准确地将球弹起了。到了第 600 场比赛时,神经网络使用了一种专业的人类 Breakout 游戏玩家使用的动作,凿穿整排砖块,让球沿着墙顶不停跳跃。
「这对我们来说,是一个很大的惊喜,」DeepMind 的首席执行官德米斯 · 哈萨比斯 (Demis Hassabis) 当时说道。「这一策略完全来自底层系统。」
人工智能,已经显示出它能够像人类一样进行异常微妙的思考,掌握 Breakout 背后的内在概念。因为神经网络松散地反映了人脑的结构,所以从理论上说,它们应该在某些方面模仿我们自己的认知方式。这一刻似乎证明了这个理论是正确的。
去年,位于旧金山的一家人工智能公司 Vicorance 的计算机科学家,提供了一个有趣的现实检验。他们采用了一种类似 DeepMind 所用的人工智能,并在 Breakout 上进行了训练。
结果很棒。但随后,他们稍微调整了游戏的布局。在一次迭代中,他们将平板提得更高了;另一次迭代中,他们在上方增加了一个牢不可破的区域。
人类玩家可以快速适应这些变化,但神经网络却不能。 这个看起来很聪明的人工智能,只能打出它花了数百场比赛掌握的 Breakout 的方法。 它不能应对新变化。
「我们人类不仅仅是模式识别器,」Vicarious 的共同创始人之一、计算机科学家迪利普 · 乔治(Dileep George)告诉我。「我们也在为我们看到的东西建立模型。这些是因果模型——有我们对因果关系的理解。」
人类能够推理,也会对我们周围的世界进行逻辑推理,我们有大量的常识知识来帮助我们发现新的情况。当我们看到一款与我们刚刚玩的游戏略有不同的 Breakout 游戏时,我们会意识到,它可能有着大致相同的规则和目标。
但另一方面,神经网络对 Breakout 一无所知。它所能做的就是遵循这个模式。当模式改变时,它无能为力。
深度学习是人工智能的主宰。在它成为主流以来的六年里,它已经成为帮助机器感知和识别周围世界的主要方式。
它为 Alexa 的语音识别、Waymo 的自动驾驶汽车和谷歌的即时翻译提供了动力。从某些方面来说,Uber 的网络也是一个巨大的优化问题,它利用机器学习来找出乘客需要汽车的地方。中国科技巨头百度,有 2000 多名工程师在神经网络人工智能上努力工作。
多年来,深度学习看上去越来越好,不可阻挡地让机器拥有像人一样流畅、灵活的智力。
但是一些人认为,深度学习正在面临困境。他们说,单凭这一点,它永远不会产生广义上的智能,因为真正像人类一样的智能,不仅仅是模式识别。
我们需要开始弄清楚如何让人工智能具备常识。他们警告说,如果我们不这样做,我们将会不断地触及深度学习的极限,就像视觉识别系统,只要改变一些输入,就会很容易被愚弄,比如,让深度学习模型认为乌龟就是一杆枪。
但他们说,如果我们成功了,我们将见证更安全、更有用的设备爆炸式增长——比如在杂乱的家中自由行动的医疗机器人、不会误报的欺诈检测系统等等。
但是,真正的推理在机器中是什么样子的呢?如果深度学习不能帮助我们达到目的,那什么可以呢?
二、
加里 · 马库斯(Gary Marcus)是纽约大学的心理学和神经科学教授,现年 48 岁,戴着眼镜,忧心忡忡。他可能是最著名的深度学习反对者。
马库斯第一次对人工智能感兴趣,是在 20 世纪 80 年代和 90 年代,当时神经网络还处于实验阶段,从那以后,他就一直在做同样的论证。
「我不只是来晚了,而且还想在派对上撒尿,」 当我在纽约大学附近的公寓遇见他时,马库斯告诉我。(我们也是私人朋友。)「深度学习刚开始爆发的时候,我就说 ‘方向错了,伙计们!’」
那时,深度学习背后的策略和现在是一样的。比方说,你想要一台机器来自己学习识别雏菊。首先,你需要编写一些算法「神经元」,像三明治一样,将它们层层连接起来 (当你使用多层时,三明治会变得更厚或更深——因此是「深度」 学习)。
你在第一层输入一个雏菊的图像,它的神经元会根据图像是否像它以前看到的雏菊的例子而进行判断。然后,信号将移动到下一层,在那里循环这个过程。最终,这些层会得出一个结论。
起初,神经网络只是盲目猜测;它或多或少地让生活从一张白纸开始。关键是建立一个有用的反馈回路。每当人工智能没有识别出雏菊时,那组神经连接就会削弱导致错误猜测的链接;如果它成功了,它会加强。
给定足够的时间和足够多的雏菊样本,神经网络会变得更加精确。它学会了通过直觉来识别一些雏菊的模式,让它每次都能识别出雏菊 (而不是向日葵或菊花)。
随着时间的推移,这一核心理念——从一个简单的网络开始,通过重复训练——得到了改进,似乎可以应用到几乎任何地方。
但是马库斯从未被说服。对他来说,问题就在于一张白纸:它假设人类纯粹通过观察周围的世界来建立他们的智力,机器也可以。
但是马库斯不认为人类就是这样工作的。他认可诺姆 · 乔姆斯基 (Noam Chomsky) 的智力发展理论,他认为人类天生就有学习的天赋,能够掌握语言和解释物质世界,而不是一张白纸。
他指出,尽管有很多人认为神经网络是智能的,但它似乎不像人类大脑那样工作。首先,它们太需要数据了。
在大多数情况下,每个神经网络都需要数千或数百万个样本来学习。更糟糕的是,每次你想让神经网络识别一种新的项目,你都必须从头开始训练。一个识别金丝雀的神经网络在识别鸟鸣或人类语言方面没有任丝毫用处。
「我们不需要大量的数据来学习,」 马库斯说。他的孩子不需要看一百万辆车就能认出车辆来。更好的是,他们可以「抽象化」,当他们第一次看到拖拉机时,他们会知道它有点像汽车。他们也可以进行反事实的工作。
谷歌翻译可以将法语翻译成英语。但是它不知道这些话是什么意思。马库斯指出,人类不仅掌握语法模式,还掌握语法背后的逻辑。你可以给一个小孩一个假动词,比如 pilk,她很可能会推断过去式是 pilked。当然,她以前没见过这个词。她没有接受过这方面的「训练」。她只是凭直觉知道了语言运作的一些逻辑,并能将其应用到一个新的情况中。
「这些深度学习系统不知道如何整合抽象知识,」 马库斯说,他创立了一家公司,创造了用更少的数据进行学习的人工智能 (并在 2016 年将公司卖给了 Uber)。
今年早些时候,马库斯发表了一份关于 arXiv 的白皮书,认为如果没有一些新的方法,深度学习可能永远不会突破目前的局限。它需要的是一种推动力——补充或内置的规则,以帮助它对世界进行推理。