大语言模型（LLM）的惊人能力仅仅是源于大规模的统计相关性，还是它对现实产生了具有含义的理解？

斐夷所非

已于 2024-08-22 08:11:37 修改

阅读量525

点赞数 13

分类专栏： AI 文章标签：人工智能

于 2024-08-22 00:21:40 首次发布

本文链接：https://blog.csdn.net/u013669912/article/details/141404982

版权

AI 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Alex 原理

原文作者：Alex Shipps

编译：カモメ

排版：雯雯

如果你让 GPT 这样的大语言模型（LLM）闻一闻雨中露营地的气味，它会婉言谢绝。但如果让它向你描述一下这种气味，它则会毫无障碍地给出一些诗意的描述，比如 “空气中弥漫着期待的气息”，那是 “一种既清新又充满泥土芬芳的味道”，尽管这些模型既没有淋过雨，也没有鼻子。

对于这种现象，一种可能的解释是，LLM 只不过在模仿大量训练数据中的文字，而不是真正理解 “雨” 或者 “气味”。最近也有越来越多关于 LLM 能不能真正 “理解” 语言的争论：缺乏直接的视觉输入，是不是一定意味着语言模型永远无法明白狮子比猫 “大” 是什么意思呢？

这其实也是现代人工智能研究中的一个核心问题：LLM 的惊人能力仅仅是源于大规模的统计相关性，还是说它对现实产生了具有含义的理解？

麻省理工学院计算机科学与人工智能实验室（CSAIL）的科学家在对这一问题进行了深入研究后，发现了一些有趣的结果。他们认为，语言模型可能会为了提高生成能力，而发展出它们自己对现实的理解。研究已发表在第 41 届国际机器学习大会（ICML 2024）上。

LLM 的 “内心世界”

团队首先开发了一组小型卡雷尔谜题（Karel Puzzle），其中包括生成一些在模拟环境中控制机器人的指令。接着，他们针对谜题训练了 LLM，但并没有向模型展示那些解决方案的实际工作原理。

实验开始时，模型生成的随机指令并不对。但到训练完成时，指令的正确率达到了 92.4%。这非常令人激动，因为这可能意味着，如果模型能以如此高的准确率完成一项任务，也许它可以理解语言中的含义了。

他们用了一种名为 “探测”（probing）的机器学习技术，查看模型在生成新的解决方案时的 “思考过程”。在这种技术中，探针可以用来解读 LLM 对指令含义的理解，它可以揭示 LLM 自身开发的内部模拟如何模拟机器人响应每条指令的过程。

一种形象比喻是，你有一堆数据编码了大模型的思考过程，而探针就像一位分析师。你把这堆数据交给分析师，告诉他与这些数据有关的机器人的运动方式，然后让他从这堆数据中找出机器人的动作。分析师在进行分析后，就能告诉你这堆数据中反映的机器人动作。

他们发现，在对 100 多万个随机谜题进行训练后，尽管 LLM 从未真正接触过现实世界，但它已经自发形成了一套对底层模拟的概念。随着模型解谜能力提高，这些内部概念也变得越来越准确。

语言模型可能会发展出自身对现实的理解，以此来提高生成能力。这表明，有朝一日，模型对语言的理解可能会比现在更深入。（图 / Alex Shipps，MIT CSAIL）

换句话说，LLM 逐步开始 “理解” 指令。不久之后，模型就能正确地把各个方面拼接在一起，形成工作指令。

有意思的是，LLM 对语言的理解似乎也是分阶段发展的，就像小孩子分多个步骤学习语言那样。一开始，它像婴儿那般咿呀学语，会产生大量重复的 “话”，大多不知所云。随后，模型开始掌握语法或者一些语言规则，并生成看似道地的指令，但这些指令仍然不起作用。LLM 的指令也会不断改进。一旦它掌握了语义，就开始生成能正确实现所要求的指令，就像一个孩子终于能说出连贯的句子。