关于大型语言模型的争论和局限

最新推荐文章于 2024-07-09 11:48:37 发布

技术宅chat

最新推荐文章于 2024-07-09 11:48:37 发布

阅读量289

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_78526383/article/details/131087088

版权

像“传统语言模型”这样在“纯文本”数据上对模型进行训练，确实有一些明显的理论局限，其中最明显的问题是：这种训练方式无法与“文本外部”的内容产生联系，因此无法获得“意义（meaning）”或“交际意图（communicative intent）”，也就是说这样的模型“不接地（not grounded）”。据我所知，大型语言模型（170B参数级别，GPT-3）的首次版本演示是在自然的文本数据上进行训练的，也就是说，训练数据来源于书籍、互联网、社交网络等，后来的系列模型（BLOOM、OPT）也使用了类似数据。

摘要由CSDN通过智能技术生成

引言

2014-2017年左右，基于神经网络的NLP方法兴起，围绕完美语言建模可以达到人类智能程度这一主题，我做了一个半学术半科普讲座。同一时间，在一个学术小组中，有人问：如果有无限算力，且无需担心劳动力成本，你会做什么？当时，我的回答是“我会训练一个超大型语言模型，目的是证明算力并不能解决所有问题”。当然，我知道这种说法已经老掉牙了，但事情真是如此吗？它该如何与我前面提到的“完美语言建模即智能”的故事共存？

完美语言建模就是AI完备

我的那场讲座主题“教计算机理解语言”主要围绕Claude Shannon的“猜谜游戏”和语言建模展开。演讲先从AI游戏开始，之后迅速转向Shannon在1951年发明的“另一种游戏（a different kind of game）”，即“猜下一个字母”。游戏操作员在文本中选择一些文本，给出填空处，并隐藏结尾，玩家需要在最少的猜测次数中猜出第一个隐藏字母。

为了更好地进行游戏，我举了几个例子，这些例子来自不同的语言知识，处于不同的语言理解水平（从形态学到不同层次的语法、语义、语用学以及社会语言学）。结果是，在游戏中，人们无需刻意练习就能表现得相当出色，从而导致他们无法再取得任何进步，所以说玩家们认为这个游戏并没有什么了不起。

之后我提到，相较于人类，计算机在游戏中的表现要糟糕得多，但在训练计算机玩游戏的过程中，我们获得了很多隐含的语言知识。虽然在语言建模方面还有很长的路要走，但我们一直在稳步前进，这也是目前机器翻译的工作模式！

我也说过计算机在这方面还不是非常擅长，这是可以理解的。原因在于这个游戏是“人工智能完备（AI-complete）”，真正“以人类水平”玩这个游戏意味着要解决AI面临的全部问题，并展现出类人智能。

为什么这么说？因为游戏涉及完成任意文本前缀，包括很长的前缀、对话，以及每一个可能的对话前缀，可以用人类语言表达的每一种经验描述，还包括任意主题或情况下的每一个问题的每个回答，还包括高数、哲学问题等等。

总之，想要玩好这个游戏，我们需要理解文本，理解文本中描述的情景，要能够设身处地将自己代入到情景之中，并做出回应。这确实就是在模仿人类的经验和思想。（有人可能并不赞同这一说法，认为人类也需要询问有关图像、场景或模型看不到的感知输入问题，但我想你应该明白我的意思。）

这就是Shannon的猜谜游戏（又名“语言建模”），以及为什么在人类智力水平上玩这个游戏需要人类级别的智能。

构建大型语言模型并不能解决所有问题

如果获得完美的语言建模能力需要智能（“人工智能完备”），那为何我还坚持认为构建尽可能大的语言模型并不能“解决所有问题”？我是否想错了？

答案是，我不认为基于当时的技术（RNNs / LSTM或Transformer）构建一个超大型语言模型会让我们接近拥有“完美语言建模”能力。

那么我是否想错了？确实有可能。大型语言模型展现出的能力让我很震惊。事实证明，60B参数和175B参数之间发生了“相变”，这让模型展现出了惊人实力。相比基于文本上训练的RNN / LSTM / Transformers语言模型，大型语言模型能做的事情要多得多，我曾说过“它们不能解决所有问题”，但现在它们已经做到了我当时脑海中所能想到的全部事情。

当前的语言模型（ChatGPT的第一个版本）确实“解决”了当时我所担忧的有关语言理解的所有问题，从这个意义上说，我错了。但从另一种意义上说，我没有错，因为它没有解决全部问题，至少现在还没有。此外，当今语言模型的性

最低0.47元/天解锁文章

技术宅chat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
关于大型语言模型的争论和局限

像“传统语言模型”这样在“纯文本”数据上对模型进行训练，确实有一些明显的理论局限，其中最明显的问题是：这种训练方式无法与“文本外部”的内容产生联系，因此无法获得“意义（meaning）”或“交际意图（communicative intent）”，也就是说这样的模型“不接地（not grounded）”。据我所知，大型语言模型（170B参数级别，GPT-3）的首次版本演示是在自然的文本数据上进行训练的，也就是说，训练数据来源于书籍、互联网、社交网络等，后来的系列模型（BLOOM、OPT）也使用了类似数据。
复制链接

扫一扫