关于Gary Marcus与Yann LeCun讨论AI现状及发展

Gary Marcus观点

Gary Marcus

  • Gary Marcus是Robust AI和Geometric Intelligence的创始人兼CEO,同时也是著名作家。

  • Marcus三月份发布了一条推文,以下是Gary Marcus的原文内容:

    • 即将发生一些事情,当《纽约时报》说一场革命即将到来,但事实上并没有发生时,我从来都不感到惊讶。因为这种情况已经持续了很长一段时间了(实际上已经几十年)。

    • 比如,回想2011年的时候John Markoff是如何展望IBM Watson的。“对于IBM来说,这场较量不仅仅是一场广为人知的宣传和100万没劲的奖励,它还证明了该公司已经在朝着一个智能机器能够理解并对人类做出反应,甚至已经不可避免地取代人类的世界迈出了一大步”。

    • 但是11年之后的今天,John Markoff所描述的愿景并没有发生。人们仍然缺乏对人工智能的理解,真正被AI取代的工作也是极少数。我所知道的每一辆卡车仍然在由人类驾驶(处了在一些受限场景下进行测试的卡车),目前还没有放射科医生被AI取代,且Watson近期也在被拆分出售……

    • 《纽约时报》在1958年首次表示,神经网络即将解决人工智能问题。当然,预测AI并不是《纽约时报》的强项。

    • 但是在过去的几天里,我看到一大堆严肃的研究人员也在提出类似的过度兴奋的主张,他们本应该更加了解这个领域的情况的。

    • 第一个例子来自斯坦福大学经济学家 Erik Brynjolfsson,是三个例子中最不令人反感的一个,但仍有些过头。

      • “我见过很多不同类型的狭义智能,一些智能在它们特定的领域能超越人类。而人类智能(“可能”)比目前所有其他的智能领域都更加广泛,但仍然知识智能空间中的一个非常狭窄的部分”。

    • Brynjolfsson 认为,人类智能是所有可能的智能空间中非常狭窄的一部分(这是乔姆斯基在我出生前就针对人类语言提出的观点),这个看法完全正确。毫无疑问,比我们更聪明的智能是有可能存在的,而且还可能实现。

    • 但是,且慢——他帖子里的 「probably」是怎么回事呢?他甚至把它放到了括号里。

    • 任何一个正常的 5 岁孩子都可以用他们几年前或多或少从零学到的母语进行对话、爬上一个不熟悉的攀爬架、看懂一部新卡通的情节或口头掌握一个新卡片游戏的规则,而不需要进行成千上万次的尝试。人类孩童在不断地学习新事物,而且通常是从少量的数据中学习。在人工智能的世界里,没有任何东西可以与之相比。

    • 任何一个正常的 5 岁孩子都可以用他们几年前或多或少从零学到的母语进行对话、爬上一个不熟悉的攀爬架、看懂一部新卡通的情节或口头掌握一个新卡片游戏的规则,而不需要进行成千上万次的尝试。人类孩童在不断地学习新事物,而且通常是从少量的数据中学习。在人工智能的世界里,没有任何东西可以与之相比。

    • 与此同时,Yann LeCun 发布了一系列令人费解的推文,声称他发明的 ConvNet(或其他什么东西)可以解决几乎所有问题,这不是真的,而且从表面上看与他自己几周前告诉 ZDNet 的相矛盾。但是等等,还有更糟的。LeCun 继续写了下面的话,这真的让我摸不着头脑:

      • “无论是想要增强人力还是取代人力,在AI领域取得进展所要解决的问题都是“完全”相同的”。

    • 我不同意他的看法。增强人的能力要简单得多,因为你不需要把整个问题都解决掉。计算器可以增强会计的能力,但它不知道哪些钱是可扣除的,也不知道税法中哪里可能存在漏洞。我们知道如何建造能做数学运算的机器(增强),但不知道如何制造能够阅读税法代码的机器(取代)。

      Yann LeCun观点

    • Yann LeCun

    • Yann LeCun是当代AI三巨头之一,与Geoffrey Hinton和Yoshua Bengio获得了2018年度的图灵奖。目前在Meta担任首席人工智能科学家。上述三位教授与吴恩达也并成为“人工智能四金刚”。

    • 我们目前接触到的深度学习知识都是源于Yann LeCun为代表的三位AI领域学者,因此或多或少都会被影响,认为“AI是无所不能的,在不远的未来可以完全代替或者重组人类工作”——使用CNN可以识别图像,且其能力已经远远超过人类,使用RNN可以帮助人类处理自然语言任务,强化学习的代表AlphaGo也在几年前打败了世界顶级围棋大师,自动驾驶技术也已经逐渐走向成熟……

    • ​​​​​​​
    • 当代人工智能的主要技术是深度学习神经网络,这是一种大规模的自学习算法,擅长识别和利用数据中的模式。从一开始,批评者就过早地认为神经网络已经遇到了不可翻越的墙,但每次都被证明只是一个暂时的障碍。

    • 1960 年代,他们无法求解非线性函数,这个问题在 1980 年代随着反向传播的出现解决了。很快又出现了新的障碍——训练系统的难度。1990 年代出现了简化程序和标准化架构,这使得训练更加可靠,然后新的问题又变成了缺乏训练数据和计算能力。

    • 2012 年,当显卡可以在海量 ImageNet 数据集上进行训练之后,深度学习成为了主流,轻松击败了所有竞争对手。但随后批评者发现了一个新问题:深度学习需要太多手工标记的数据进行训练。

    • 过去几年,这种批评变得毫无意义,因为自监督学习已经产生了令人难以置信的卓越系统,例如不需要标记数据的 GPT-3。

    • 今天看似不可逾越的墙是符号推理,即以代数或逻辑的方式操纵符号的能力。我们知道,解决数学问题需要根据严格的规则逐步处理符号。作为《The Algebraic Mind》的作者和《Rebooting AI》的作者之一,Gary Marcus 最近声称深度学习无法进一步取得进展,因为神经网络在处理符号操作方面存在困难。然而,许多深度学习研究人员确信深度学习已经在进行符号推理并将持续改进。

    • 这是一场关于深度学习前景的辩论。辩论的核心是对符号在智能中的作用存在两种不同的看法:一种认为符号推理必须从一开始就被硬编码,另一种认为机器可以像人类一样从经验中学习。这涉及到我们应该如何理解人类智能,进而去追求人类水平的人工智能。

    • 两种类型的人工智能

    • 符号推理需要精确的计算规则。例如,符号可以有许多不同的顺序,(3-2)-1 和 3-(2-1) 的区别很大,以正确的顺序执行正确的规则至关重要。Marcus 认为,这种推理是认知的核心,对于为语言提供潜在的语法逻辑和数学的基本操作至关重要。更广泛地说,他认为因果推理等更基本的能力背后有一个潜在的符号逻辑。

    • 实际上,人工智能领域始于研究这种推理,通常称为符号人工智能 ,或「老式人工智能(GOFAI)」。但是,将人类专业知识提炼成一套规则是非常困难、耗时且高成本的。这被称为「知识获取瓶颈」。虽然为数学或逻辑编写规则很简单,但世界本身却非常模棱两可,事实证明,不可能编写管理所有的模式规则或为模糊概念定义符号。

    • 然而,这正是神经网络擅长的地方:发现模式和接受歧义。神经网络是一组相对简单的方程,它们学习一个为输入提供输出的函数。

    • 例如,我们可以训练一个视觉识别系统,找出所有包含椅子的图像,这本身是一种较为模糊的属性。这允许网络成功地推断出图中新对象是否是一把椅子,只需通过比较它与其他椅子图像的接近程度。使用足够多的对象和足够多的类别进行此操作就会产生一个强大的概念空间,其中许多类别以重叠但仍可区分的方式聚集在一起。

    • 我们面临的问题不仅是关于人工智能发展的问题,还有什么是智能以及大脑是如何工作的。

    • 神经网络可以精确训练,因为实现的函数是可微的。换句话说,如果符号人工智能类似于符号逻辑中使用的离散 token,那么神经网络就是微积分的连续函数。这允许在学习更好表征的方向上稍微调整变量来实现缓慢、渐进的进展,这意味着所有数据点之间的更好拟合以及函数在类别之间存在边界。然而,当涉及到严格的规则和离散符号时会出现问题:求解方程时,我们通常需要准确的答案,而不是近似值。

    • 这是符号人工智能的优势,Marcus 建议简单地将两者结合起来:在深度学习模块的顶部插入一个硬编码的符号操作模块。这听起来很有吸引力,因为两种方法可以很好地互补。因此,一个具有不同工作方式的模块混合系统似乎可以提供两全其美的效果。深度学习领域也认同符号操作是创建类人 AI 的必要特征。

    • 但争论的焦点是符号操作是否需要内置到系统中,其中符号和操作能力是由人类设计的,形成一个用于操作离散符号的模块。该模块是不可微分的,因此与深度学习不兼容。但这些建立神经网络不能进行符号操作的假设基础上。

    • 神经网络中的符号推理

    • 这个假设很早就存在较大的争议。神经网络方法传统上认为不需要手工创建符号推理,而是可以学习它,训练机器使用符号示例进行正确推理将允许机器学会这种抽象模式。简而言之,尽管没有内置手工制作的符号和符号操作规则,但机器可以学习操作现实世界的符号。

    • 当代大型语言模型(例如 GPT-3 和 LaMDA)显示了这种方法的潜力。它们具有令人印象深刻的符号操纵能力,并掌握某种程度的常识推理。这些大模型具备多语言、逻辑和数学等令人惊讶的能力。

    • 但这样做并不可靠。DALL-E 可以轻松创作一个穿着热带衬衫、戴着眼镜、留着胡子、戴着眼镜的哲学家的罗马雕塑,但如果让它画一只戴着粉色背带的小猎犬追逐松鼠,有时你会得到一只粉色的小猎犬或一只戴着背带的松鼠。

    • 当它将所有属性分配给单个对象时,效果很好,但是当有多个对象和多个属性时就会出现问题。许多研究人员认为这是深度学习通往类人智能道路上的一个障碍。

    • 然而,Marcus 的看法不是这样的。他假设,符号推理是全有或全无的——因为 DALL-E 没有符号和其操纵逻辑规则,它实际上并不是用符号进行推理。因此,大型语言模型中的众多失败表明它们并不是真正的推理,而只是在进行苍白的模仿。

    • Marcus 认为,正如古老的 AI 格言所说,爬足够大的树是无法到达月球的。因此,他认为当前的深度学习语言模型并不比 Nim Chimpsky(一只会使用手语的黑猩猩)更接近真正的语言。DALL-E 的问题并不是缺乏训练的窍门,而是系统根本没有掌握句子的基本逻辑结构,因此无法正确将不同部分连接成一个整体。

    • 这就是为什么说从一个角度来看,深度学习的问题是「障碍」,而从另一个角度来看则是「墙壁」。基于有关符号推理性质的背景假设,相同的现象可以看起来不同。对于 Marcus 来说,如果你一开始未拥有符号操纵,你就永远不会拥有它。

    • 相比之下,Geoffrey Hinton 等人认为神经网络不需要将符号和代数推理硬编码到其中就可以操纵符号。深度学习的目标不是机器内部的符号操纵,而是世界系统中出现的正确类型的符号使用行为。拒绝混合模式不是未经思索的,而是基于「一个人是否认为可以学习符号推理」的哲学差异。

    • 人类思想的本质

    • Marcus 对深度学习的批判源于认知科学(以及在哲学中更古老)的一场相关斗争,即关于智能如何产生以及是什么让人类得以独特。他的想法与心理学中一个著名的「先天论」学派一致,该学派认为认知的许多关键特征是与生俱来的——实际上,我们很大程度上天生就有一个关于世界如何运作的直观模型。

    • 这种与生俱来的架构的一个核心特征是符号操纵的能力,关于这是整个自然界中均有的还是人类特有的,尚存在争议。对于 Marcus 来说,这种符号操纵能力是常识的许多基本特征的基础:遵循规则、抽象、因果推理、重新识别细节、概括和许多其他能力。简而言之,我们对世界的大部分理解都是自然赋予的,而学习则是充实细节的过程。

    • 另一种「经验主义」观点则颠覆了这一点:符号操纵在自然界中是罕见的,主要是作为我们的人类祖先在过去两百万年中逐渐获得的学习交流能力而产生的。根据这种观点,主要的认知能力是与提高生存率相关的非符号学习能力,例如快速识别猎物、预测它们可能的行为以及发展熟练的反应。这个观点假设绝大多数复杂的认知能力是后天获得的,是通过一种普遍的、自监督的学习能力获得,这是一种通过经验获得具有常识核心特征的直观世界模型的能力。它还假设,我们大多数复杂的认知能力都不会依赖于符号操纵,相反是通过模拟各种场景并预测最佳结果来做到这一点。

    • 这种经验主义观点将符号和符号操纵视为另一种学习能力,随着人类越来越依赖合作行为取得成功,物种获得了这种能力。这种观点将符号视为我们用来协调合作活动的发明——比如文字,还有地图、标志性描绘、仪式甚至社会角色。这些能力被认为是由于越来越长的学习青春期和对更精确、更专业的技能(如工具制造和消防维修)需求的结合而产生的。这一观点认为符号和符号操作主要归于文化发明,较少依赖于大脑中的硬接线(hard wiring),而更多地依赖于我们日益复杂的社会生活。

    • 这两种观点之间的差异非常明显。对于先天论传统来说,符号和符号操纵本就在大脑之中,而文字和数字的使用正是从这种原始能力中衍生出来的。这种观点很具吸引力地解释了一系列源于进化适应的能力(尽管对于符号操纵如何或为何进化的解释一直存在争议)。对于经验主义传统来说,符号和符号推理是用于交流目的的有用发明,它源于一般的学习能力和复杂的社会世界。内部计算和内心独白等发生在我们头脑中的象征性东西,因而被视为源自数学和语言使用的外部实践。

    • 人工智能和认知科学领域密切相关,因此这些争论的重演也就不足为奇了。人工智能领域中任一观点的成功,都会在部分程度上证明认知科学中的一种或另一种方法是正确的(但也仅是部分程度上),因此这些争论之激烈也就不足为奇了。现在面临的问题不仅是关于人工智能当代问题的正确方法,还有关于什么是智能以及大脑如何工作的问题。

    • 赌注究竟是什么?

    • 为什么深度学习撞墙的说法如此具有挑衅性?如果 Marcus 和先天论者是对的,那么深度学习将永远无法实现类人的 AI,无论它提出了多少新架构或投入了多少计算能力。不断添加更多层只会令人困惑,因为真正的符号操纵需要一个与生俱来的符号操纵者。而且,由于这种符号操作是几种常识能力的基础,因此深度学习系统将永远不会拥有任何东西,只能拥有对事物粗略、现成的理解。

    • 相比之下,如果深度学习的倡导者和经验主义者是正确的,那么插入符号操纵模块的想法是令人困惑的。在这种情况下,深度学习系统已经在进行符号推理,并将继续改进它,因为它们通过更多的多模态自监督学习、越来越有用的预测世界模型以及用于模拟的工作内存的扩展以及评估结果来满足约束。引入符号操纵模块不会导致更像人类的 AI,而是迫使所有「推理」通过一个不必要的瓶口,让我们与类人智能渐行渐远。这可能会切断深度学习最令人印象深刻的方面之一:它能够提出比人类程序员想象的更有用和更聪明的解决方案。

    • 尽管赌注很高,但同样重要的是,这些辩论中提出的许多问题至少在某种程度上是次要的。比如一些讨论:深度学习系统中的高维向量应该被视为离散符号(可能不是),实现深度学习系统所需的代码行是否使其成为「混合」系统(语义),在复杂游戏中获胜是否需要手工的、特定领域的知识,或者它是否可以学习(说得太早了)。还有一个问题是混合系统是否有助于解决围绕人工智能的伦理问题(否)。

    • 而这一切都不是为了证明这场愚蠢的炒作是合理的:当前的系统没有意识——它们并不能理解我们,强化学习还不够,你不能仅仅通过扩大规模来建立类人智能。但所有这些问题都与主要争论无关:符号操纵是否需要硬编码,还是可以学习?

    • 这是停止研究混合模型(即具有不可微分符号操纵器的模型)的呼吁吗?当然不是。研究人员自 1980 年代以来一直在研究混合模型,但尚未证明它们是灵丹妙药——或者在许多情况下,甚至远不及神经网络。更广泛地说,人们应该怀疑深度学习是否已达到极限。

    • 鉴于最近 DALL-E 2、Gato 和 PaLM 中任务的持续、增量改进,避免将「障碍」误认为「墙壁」似乎是明智之举。深度学习不可避免的失败之前就已经能预料到,但押注它是不值得的。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值