1
引言
2014-2017年左右,基于神经网络的NLP方法兴起,围绕完美语言建模可以达到人类智能程度这一主题,我做了一个半学术半科普讲座。同一时间,在一个学术小组中,有人问:如果有无限算力,且无需担心劳动力成本,你会做什么?当时,我的回答是“我会训练一个超大型语言模型,目的是证明算力并不能解决所有问题”。当然,我知道这种说法已经老掉牙了,但事情真是如此吗?它该如何与我前面提到的“完美语言建模即智能”的故事共存?
2
完美语言建模就是AI完备
我的那场讲座主题“教计算机理解语言”主要围绕Claude Shannon的“猜谜游戏”和语言建模展开。演讲先从AI游戏开始,之后迅速转向Shannon在1951年发明的“另一种游戏(a different kind of game)”,即“猜下一个字母”。游戏操作员在文本中选择一些文本,给出填空处,并隐藏结尾,玩家需要在最少的猜测次数中猜出第一个隐藏字母。
为了更好地进行游戏,我举了几个例子,这些例子来自不同的语言知识,处于不同的语言理解水平(从形态学到不同层次的语法、语义、语用学以及社会语言学)。结果是,在游戏中,人们无需刻意练习就能表现得相当出色,从而导致他们无法再取得任何进步,所以说玩家们认为这个游戏并没有什么了不起。
之后我提到,相较于人类,计算机在游戏中的表现要糟糕得多,但在训练计算机玩游戏的过程中,我们获得了很多隐含的语言知识。虽然在语言建模方面还有很长的路要走,但我们一直在稳步前进,这也是目前机器翻译的工作模式!
我也说过计算机在这方面还不是非常擅长,这是可以理解的。原因在于这个游戏是“人工智能完备(AI-complete)”,真正“以人类水平”玩这个游戏意味着要解决AI面临的全部问题,并展现出类人智能。
为什么这么说?因为游戏涉及完成任意文本前缀,包括很长的前缀、对话,以及每一个可能的对话前缀,可以用人类语言表达的每一种经验描述,还包括任意主题或情况下的每一个问题的每个回答,还包括高数、哲学问题等等。
总之,想要玩好这个游戏,我们需要理解文本,理解文本中描述的情景,要能够设身处地将自己代入到情景之中,并做出回应。这确实就是在模仿人类的经验和思想。(有人可能并不赞同这一说法,认为人类也需要询问有关图像、场景或模型看不到的感知输入问题,但我想你应该明白我的意思。)
这就是Shannon的猜谜游戏(又名“语言建模”),以及为什么在人类智力水平上玩这个游戏需要人类级别的智能。
3
构建大型语言模型并不能解决所有问题
如果获得完美的语言建模能力需要智能(“人工智能完备”),那为何我还坚持认为构建尽可能大的语言模型并不能“解决所有问题”?我是否想错了?
答案是,我不认为基于当时的技术(RNNs / LSTM或Transformer)构建一个超大型语言模型会让我们接近拥有“完美语言建模”能力。
那么我是否想错了?确实有可能。大型语言模型展现出的能力让我很震惊。事实证明,60B参数和175B参数之间发生了“相变”,这让模型展现出了惊人实力。相比基于文本上训练的RNN / LSTM / Transformers语言模型,大型语言模型能做的事情要多得多,我曾说过“它们不能解决所有问题”,但现在它们已经做到了我当时脑海中所能想到的全部事情。
当前的语言模型(ChatGPT的第一个版本)确实“解决”了当时我所担忧的有关语言理解的所有问题,从这个意义上说,我错了。但从另一种意义上说,我没有错,因为它没有解决全部问题,至少现在还没有。此外,当今语言模型的性