梅兰妮·米切尔｜大模型和世界模型

人工智能学家

于 2025-02-22 16:06:20 发布

阅读量197

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2650028468&idx=3&sn=78042d62eba008a927be3c5daa274c75&chksm=8e3c8c102ee800088169c6d3d244f95e253d9128e06f156f83639bbc610e0ccb87fc46ceb79d&scene=126&sessionid=0

版权

来源：科技世代千高原

大模型和世界模型，第 1 部分

LLMs and World Models, Part 1

大型语言模型如何理解它们的“世界”？How do Large Language Models Make Sense of Their “Worlds”?

‍梅兰妮·米切尔MELANIE MITCHELL

2025 年 2 月 14 日 aiguide.substack.com

过往人工智能的脆弱性

在很久以前，在大规模生成式人工智能出现之前，机器学习系统存在一些问题：它们通常不会学习我们试图教给它们的一般概念，而是使用“捷径”或“表面启发式”来解决问题。举一个鲜明的例子，一些研究人员试图训练深度神经网络将下面照片中的皮肤病变分类为“良性”或“恶性”。

虽然该网络在训练的照片类型上表现良好，但研究人员注意到一个问题：

“算法似乎更有可能将带有标尺的图像解读为恶性。为什么？在我们的数据集中，带有标尺的图像更有可能是恶性的；因此，算法无意中‘了解到’标尺是恶性的。”

简而言之，网络学习了一种有用的启发式方法：如果图像中有与尺子相对应的特征，则答案为“恶性”。网络不理解病变是什么，也不理解研究人员训练它的动机，也不理解为什么尺子会出现在特定的图像中，也不理解世界上的任何其他事情；它只学会将某些图像特征与“恶性”类别联系起来，这在测试数据上效果很好，但当然概括性很差。

这种启发式“捷径”并不局限于视觉数据。2019 年，一个研究小组报告了他们使用神经语言模型来确定一个句子是否在逻辑上暗示另一个句子。该模型在旨在测试这种通用能力的数据集上表现非常出色。但事实证明，该模型的高性能依赖于表面的句法属性，例如一个句子中的单词与第二个句子中的单词重叠的程度。当网络被赋予无法利用这种启发式方法的句子时，其性能会急剧下降。

另一组研究人员在深度强化学习系统中也发现了类似的脆弱性，该系统已成功学会了玩雅达利视频游戏《打砖块》。该系统通过游戏视频帧进行训练，然后选择动作——水平移动球拍击球以击中爆炸的砖块。虽然训练后的系统似乎对所训练的游戏版本非常熟练，但研究人员表示，游戏设置的微小变化（例如将球拍的垂直位置移动几个像素）会导致训练后网络的性能下降，即使这种变化对学会玩这款游戏的人可能不会产生影响。似乎原始系统并没有学习“球拍”、“球”或“砖块”的抽象概念，而是使用启发式方法（原始游戏特有的像素配置模式）来决定动作。

在所有这些情况下，机器学习系统都学会了使用特定于其训练数据的启发式方法来执行任务，而不是人类训练师试图教给它的那种抽象的、因果的理解。

当然，“理解”这个词定义不明确，但对人类理解来说，关键的一点似乎是拥有心理“世界模型”：关于世界各个方面如何运作的压缩、可模拟的模型，这些模型可以捕捉因果结构并产生预测。

关于大模型中涌现世界模型的争论

如今，我们进入了大型语言模型 (LLM) 时代，大型神经网络在大量人工生成的文本数据上进行预训练，其性能似乎比“以前”规模较小、训练不足且脆弱的机器学习系统要好得多。但人工智能社区对于这些系统如何实现高性能存在激烈争论。它们是否基本上记住了训练数据，然后以某种“近似”方式检索数据以解决新问题？它们是否学习了更多、更详细但仍然脆弱的启发式捷径？或者它们是否拥有更像人类用来理解和在世界中行动的强大“世界模型”的东西？

OpenAI 联合创始人 Ilya Sutskever断言，这些系统已经学会了强大的世界模型：

“当我们训练一个大型神经网络来准确预测大量不同文本中的下一个单词时......它正在学习一个世界模型......这个文本实际上是世界的投影......神经网络正在学习的是越来越多的关于世界、关于人、关于人类状况、关于他们的希望、梦想和动机的方面......神经网络学习一种压缩的、抽象的、可用的表示。”

虽然许多人会同意 Sutskever 的观点，但其他著名的 AI 研究人员却强烈反对，他们认为 LLM 的成功更多地归功于从大量记忆的训练数据中进行“近似检索”。例如，亚利桑那州立大学的 Subbarao Kambhampati就是这样的：

以下是Meta 的 Yann LeCun 的观点：

LeCun 与哲学家 Jacob Browning 进一步指出：“仅靠语言训练的系统永远无法接近人类智能，即使从现在开始训练直到宇宙热寂。”

2022 年对 NLP 研究人员的一项调查结果可以说明 AI 社区的分裂，该调查要求受访者同意或不同意以下说法：“一些仅对文本进行训练的生成模型，在获得足够的数据和计算资源的情况下，可以理解一些非平凡意义上的自然语言。”值得注意的是，回答几乎是五五开：

那么，对于那些声称大模型凭借其对人类语言的广泛训练已经涌现出世界模型的人来说，有什么证据可以说服他们呢？在深入探讨这个故事之前，让我们首先探讨一下“世界模型”一词的含义，以及为什么这种模型对人类或人工智能系统有用。

什么是世界模型？它有什么用处？

“世界模型”一词已成为人工智能圈的流行语，但它并没有一个统一、公认的定义。以下是人工智能文献中对世界模型的几个定义。

“模拟外部世界各个方面的内部表征。”1

“表示形式在代理需要执行的任务所必需的范围内保留了环境的因果结构。”2

“现实世界中实体、关系和过程的结构保留、行为有效的表示。这些表示在抽象层面上以算法高效的形式捕捉其对应的现实世界过程（通常涉及因果关系），以支持相关行为。”3

这些非正式的定义4强调世界模型存在于生物体的大脑中，或者说存在于大模型的神经网络中，它们捕捉到了一些关于世界的因果和抽象（或压缩）的东西，而不是简单地基于大量的统计关联；它们不需要代理做太多工作（“算法高效”），并且与代理执行的任务相关。

在我 2019 年出版的《人工智能：思考人类的指南》（第 236 页）一书中，我以下图为例，说明了人类的世界模型（包括物理学、生物学和心理学的直觉模型）如何使我们能够非常快速地理解这种复杂的情况（人类驾驶员或自动驾驶汽车可能会遇到的情况），理解为什么人和狗会以某种方式行事（即是什么导致了他们的行为），猜测他们之间的关系，预测接下来可能发生的事情，计划作为驾驶员遇到这种情况时会做什么，并回答反事实问题，例如“如果狗属于这个男人，照片会发生什么变化”或“如果接近人行横道的司机大声按喇叭会发生什么？”

值得注意的是，我们的世界模型不仅仅存在于现实世界；它们还可以形成并用于推理虚构世界，例如科幻小说或奇幻文学中创造的世界。

模型分类

麻省理工学院教授雅各布·安德烈亚斯（Jacob Andreas）发表了一篇富有洞察力的博客文章，提出了一系列可算作“世界模型”的不同类型的模型，并按照这些模型可以回答的问题类型进行排序。

最弱的模型是静态查找表——即对一组固定查询的记忆答案。显然，这样的模型（如果它确实有资格使用这个词的话）无法以任何方式推广到其存储的数据之外。

接下来可能是一张地图，比如这张太阳系的二维地图（图片来源：NASA）：

地图是一种模型，它可以帮助用户轻松回答诸如“哪个行星离太阳最近？”或“哪个行星最大？”之类的问题（当然，回答这些问题需要用户进行一些额外的感知/认知工作）。但它无法帮助回答诸如“如果水星和地球在格林威治标准时间今天中午对齐，那么它们在格林威治标准时间明天中午的相对位置是多少？”之类的问题。

为了帮助回答涉及动力学的问题，人们可以使用太阳系仪，即安德烈亚斯光谱中的下一个模型，它具有移动部件，使用户可以轻松确定行星在其轨道不同点的相对位置。太阳系仪的外观如下：

然而，太阳系仪模型还不足以回答许多类型的问题，例如“光从太阳到达地球需要多长时间”或反事实问题，例如“如果太阳的质量增加百分之五，地球的轨道将如何变化？”

Andreas 的光谱中的最后一个模型是一个模拟器。继续以太阳系为例，一个包含因果力的详细引力模拟器可以帮助我们更好地预测未来并回答有关该系统的某些反事实问题。这是我们人类（大概）在推理上面那张“打电话的女人”照片时使用的那种思维模型。

当然，这些不同模型回答查询的精确度取决于模型的许多细节。此外，这些模型是用户的工具——只有当用户具有使用它们所需的感知和认知能力时，它们才有用。这就引出了一个问题：什么机制扮演着我们大脑（或我们的机器）内部世界模型的“用户”角色——这是一个令人着迷（但仍未得到充分理解）的科学难题。

在众多声称 LLM 可以开发世界模型的主张中，最像地图的是由简单的单词共现形成的嵌入空间，例如Word2Vec 类空间中的空间 / 时间关系以及对地名数据集进行训练的结果。“情境模型”——即 LLM跟踪故事文本中谁在做什么的能力——可能被归类为类似太阳系仪的模型；它们跟踪一些动态，但并不代表有关更广阔世界的因果知识。据我所知，没有太多证据表明 LLM 可以捕捉到详细的因果模拟类模型。

简而言之，安德烈亚斯指出，在评估大模型是否具有隐性世界模型时，需要明确该模型可以帮助用户回答哪些类型的问题，以及用户需要做多少认知或计算工作才能使用该模型来回答这些问题。

显然，如果人工智能系统拥有那种能够以我在上面“打手机的女人”照片中描述的方式推理世界的内部模型，那将非常有用。事实上，许多人声称，如果没有这样的内部模型，人工智能系统就永远无法达到人类水平的智能。Ilya Sutskever 声称法学硕士已经学会了“一种压缩的、抽象的、可用的世界表示”，他断言法学硕士凭借对下一个单词完成的训练，已经拥有这种内部世界模型。但这有什么证据呢？这将是本文第 2 部分的主题。

1https://arxiv.org/abs/2401.03910

2https://arxiv.org/abs/2412.11867

3https://lapaul.org/papers/From%20task%20structs%20to%20world%20models.pdf

4强化学习领域使用更正式的定义：世界模型是一种机器学习系统（通常是神经网络），它根据代理的当前状态和动作，计算出可用于预测下一个状态（或可能的下一个状态的概率分布）的表示。请参阅https://arxiv.org/abs/1803.10122和 https://www.linkedin.com/posts/yann-lecun_lots-of-confusion-about-what-a-world-model-activity-7165738293223931904-vdgR/。

大模型和世界模型，第 2 部分

大模型中支持（和反对）涌现世界模型的证据Evidence For (and Against) Emergent World Models in LLMs

梅兰妮·米切尔Melanie Mitchell

2025 年 2 月 14 日Feb 14, 2025

大模型中世界模型的证据：《奥赛罗》案例

或许，大模型 (LLM) 中涌现的世界模型最被广泛引用的证据是一对专注于简单棋盘游戏奥赛罗的研究。在第一项研究中，作者 Kenneth Li 等人于 2022 年报告，他们训练了一个相对较小的 Transformer 网络来预测游戏中的合法动作，然后分析了该网络中的内部激活，以查看 Transformer 是否通过对代表游戏的 token 序列的训练学会了一个“世界模型”。

《奥赛罗》的剧情

关于奥赛罗的一些背景知识：游戏在 8×8 的棋盘上进行，游戏开始时，棋盘中央排列着两块白色和两块黑色的牌，如下图 (A) 所示。1

两名玩家“黑方”和“白方”轮流在棋盘上放置棋子。棋子必须放置成玩家颜色的“包围”另一方颜色的一个或多个棋子，并且被包围的棋子会翻转为玩家颜色。例如，在上图 (B) 中，黑方将其棋子放置在 E3 格中，而 E4 中先前为白色的棋子现在被两块黑色棋子包围，已翻转为黑色。下一步，白方在 D3 放置棋子，而 D4 中被包围的黑色棋子已翻转为白色。游戏如此进行，直到所有可能的移动都已完成，棋盘上棋子最多的玩家获胜。

训练和探索 OthelloGPT

Kenneth Li 和合著者训练了一个转换网络，他们称之为“OthelloGPT”，以输入合法走法序列，并输出序列中的下一个合法走法。他们的训练过程如下所示。

作者使用黑白棋模拟器生成了 2000 万个不同的游戏序列，用于训练。每个序列都是一系列动作，根据之前的移动，每一步都是合法的。每个序列中的移动不一定是好的移动；黑白棋模拟器只是生成了合法移动序列，没有任何特定的获胜策略。2

OthelloGPT 的输入是一系列 token（例如 E3、D3、C5），每个 token 代表序列中的一种合法走法。Transformer 的“正确”输出将是序列中一个新的合法走法。请注意，这类似于典型的 LLM 训练，用于预测语言 token 序列中的下一个 token，只是这里的 token 代表走法而不是单词部分。和典型的 LLM 训练一样，Transformer 不会被告知输入序列的含义——它不知道这代表在 8×8 棋盘上进行的游戏，也不知道有两个玩家拥有不同颜色的牌，也不知道玩家轮流下棋，也不知道其他任何事情。Transformer 只看到输入 token 的模式。

在对 2000 万个这样的序列进行训练后，OthelloGPT 几乎完美地预测了给定一系列先前的走法后代表合法走法的标记。问题是，网络究竟学到了什么才能完成这项任务？

就像 Ilya Sutskever 推测 LLM 严格根据语言输入开发出抽象的世界模型一样，OthelloGPT 的作者推测他们的转换器已经开发出了一种“新兴世界模型”——游戏规则的压缩表示，以及在任何输入标记序列之后游戏板的状态——即使它没有被赋予任何明确与规则或棋盘存在相关的信息。

为了验证这一推测，作者需要一种方法来“深入了解”Transformer。为此，他们使用了一种称为“探测”的技术，该技术可以揭示经过训练的Transformer的内部激活是否编码了游戏板的状态。

探测器是一个简单的分类器——在这里，一个单独的机器学习系统，它根据变压器的内部激活进行训练，以预测游戏序列中不同时间点棋盘的状态。

在训练 OthelloGPT 预测移动序列中的下一步合法移动后，作者为此类探测器创建了一个训练集。他们向 OthelloGPT 展示了许多部分游戏序列，并针对每个输入序列记录了网络在其八层中的每一层的内部激活向量。如果 OthelloGPT 有一个隐式世界模型，那么这些激活应该以某种方式编码每个棋盘方块的内容，给定输入中所表示的移动序列。这些向量被用作探测器的训练集；目标是训练探测器输入这些向量并输出棋盘的状态。

如下图所示，作者创建了 64 个不同的探测器，每个棋盘方块一个。每个探测器都是一个简单的线性分类器，它输入来自给定层的激活向量，并输出其对该方块当前内容的预测——“黑色”、“白色”或“空”。作者训练每个探测器，使其根据激活值对其对应的棋盘方块进行正确分类，然后在训练数据中未见过的新序列产生的激活上测试探测器。

这个想法是，由于线性分类器非常简单，如果它们可以根据转换器激活预测正确的棋盘状态，那么这些激活就会以一种非常容易解码的方式对该状态进行编码 - 也就是说，它们提供了一种表示，可以用来轻松回答有关奥赛罗棋盘动态状态的问题，就像太阳系仪让我们能够轻松回答有关行星动态位置的某些问题一样。

然而，出现了一个问题：作者训练的线性探测器在预测棋盘状态方面效果不佳。因此，作者尝试训练更强大的非线性探测器——特别是具有隐藏层的神经网络。这些探测器在预测棋盘状态方面效果更好——例如，当将来自 Transformer 第 7 层的激活作为输入时，训练后的探测器能够以大约 98% 的准确率正确预测相应的棋盘状态。

但等等——这远不是转换器已经开发出“世界模型”的明确证据。问题在于非线性探测器在学习模式方面太强大了。预测板状态的功劳可能不是变压器的功劳，而是探测器本身的功劳！

这里要记住的一点是：OthelloGPT 并未接受预测棋盘状态的训练。它仅接受输入一系列动作并预测下一步合法动作的训练。但是，非线性探测器直接接受训练，以便根据 OthelloGPT 的激活来预测棋盘状态。因此，如果这些激活中编码了任何内容，非线性探测器可以使用这些内容来预测棋盘状态，它就会成功。例如，假设转换器的内部激活根本不编码棋盘状态，而只是输入标记序列的压缩版本。可以证明，给定这些激活，足够强大的非线性探测器可以学习解码输入序列并将其映射到特定棋盘方格的状态。重要的是，线性探测器不够强大，无法做到这一点。

我：不太满意。其他人：满意

因此，在阅读了李等人的论文后，我对 OthelloGPT 中“涌现世界模型”的证据并不感冒。

然而，其他非常杰出的人工智能研究人员对此印象深刻。Anthropic 联合创始人 Chris Olah在推特上写道：

深度学习先驱、谷歌大脑团队联合创始人吴恩达（Andrew Ng）在推特上写道：

线性探针终于起作用了！

在李等人的论文发表后不久，另一位研究人员发表了一份声明，让我重新思考了我的立场。现在就职于 Google DeepMind 的 Neel Nanda 展示了线性探测器可以学习将 OthelloGPT 的内部激活映射到棋盘状态。Nanda 和他的同事们基本上遵循了我在原始论文中描述的相同实验程序：对线性探测器进行内部激活训练，以对每个棋盘方格的内容进行分类，但有一个修改：它们不是将每个方格分类为“黑色”、“白色”或“空”，而是将内容分类为“我的”、“你的”或“空”。也就是说，如果输入激活来自最后一步是黑棋的序列，“我的”表示黑棋，“你的”表示白棋。如果输入激活来自最后一步是白棋的序列，则情况相反。

这一变化带来了巨大的变化：现在，接收来自第 7 层激活的输入的线性探测器能够以高达 99.5% 的准确率预测棋盘状态。

为什么从“黑、白、空”变成“我的、你的、空”会产生如此大的影响？似乎 OthelloGPT 的一个注意力头学会了跟踪交替移动，而内部激活的含义取决于哪个玩家在输入序列中最后移动。

OthelloGPT 是否具有涌现的世界模型？

Nanda 等人的论文给我留下了深刻的印象（现在依然如此！），在我（和一些合作者）试图反驳他们的说法并失败之后，这种印象更加深刻。此外，其他团队也展示了 transformer 中世界模型的类似证据，例如在学习预测国际象棋的合法走法和学习如何穿越简单的迷宫时。

但问题仍然存在：这一切是否意味着 OthelloGPT 和其他类似的 Transformer 确实开发了隐式世界模型？如果是这样，他们开发了什么样的世界模型？

让我们回到这篇文章中我试图定义“世界模型”的部分。我说的是：

“它们捕捉到世界上一些因果和抽象（或压缩）的东西，而不是简单地基于大量的统计关联；它们不需要代理做太多工作（“算法高效”），并且与代理执行的任务相关。”

Nanda 等人表明，OthelloGPT 对棋盘状态的编码具有因果关系：他们表明系统使用隐式棋盘状态信息来执行预测合法走法的任务。为了证明这一点，他们改变了系统隐式棋盘状态编码的状态（通过改变编码棋盘状态的激活），并表明这会以一致的方式改变 OthelloGPT 对合法走法的预测。3

因此，OthelloGPT 的内部激活肯定捕捉到了与任务有因果关系且相关的世界内容，但仍有待证明的是，它对棋盘的内部表示是抽象的和“算法高效的”——人类可能会使用黑白棋游戏的心理模型来动态地想象和推理棋盘的状态。

世界模型与启发式方法

2024 年年中，一群学生研究人员发布了一篇题为《OthelloGPT 学会了一袋启发式方法》的博客文章， OthelloGPT 世界模型的故事因此面临新的复杂因素。这些作者是 DeepMind 的 Neel Nanda 创建的一项培训计划的一部分，他们的项目是跟进 Nanda 自己的工作，并进行仔细的实验以更深入地研究 OthelloGPT 的内部表征。学生们报告说，虽然 OthelloGPT 的内部激活确实编码了棋盘状态，但这种编码并不是一个连贯的、易于理解的模型，比如说，一个天文仪，而是一个“许多独立的决策规则，这些规则局限于棋盘的一小部分”的集合。举个例子，他们在某一层发现了一个特定的神经元（即神经网络单元），其激活代表了一个非常具体的规则：“如果刚刚下了 A4 步，并且 B4 被占用，并且 C4 被占用，则将 B4、C4 和 D4 更新为‘你的’（假设分类标签为mine 、yours或空）”。另一个神经元的激活代表规则“如果 B4 的标记未在输入字符串中出现在 A4 之前，则 B4 为空。”

这些是 OthelloGPT 似乎使用的许多特定局部启发式方法的示例。任何单个规则并不总是正确的，在某些情况下，这些规则相互矛盾，但代表不同启发式规则的大量神经元的集体激活（每个神经元都会促进其他神经元的激活）几乎总是导致对棋盘状态做出正确的预测。总之，“我们推测 Othello-GPT 通过聚合许多启发式规则来计算单元格是‘我的’还是‘你的’，而不是实现具有较短描述长度的清晰算法。”

如果这个猜想是正确的（据我所知，这份报告还没有经过同行评审），那么 OthelloGPT 的隐式表示更像是托勒密的本轮模型，而不是现代的太阳系仪。它是一种启发式方法，可以得出大部分准确的预测，但算法效率不高（即，不易于回答问题）或抽象（即，它特定于这个特定版本的 Othello，并且不能轻易适应新情况，例如在 10x10 棋盘上玩 Othello）。

其他论文也发现，类似的启发式方法集合可能构成了 Transformer解决算术问题、执行路线规划和其他任务的（不完美）能力的基础。这种启发式方法集合也可能推动着我上面提到的下棋和解迷宫的能力。具有大量参数的神经网络可以编码大量此类启发式方法，这些启发式方法产生的行为看起来像人类可能拥有的那种世界模型，但在遇到足够新颖的情况时会变得脆弱。今天的 LLM 显然比我在本文第 1 部分中谈到的“以前”的神经网络要安全得多，但它们仍然表现出脆弱性，这可能是因为同样依赖启发式方法，尽管规模要大得多。

人类可能也会使用抽象的世界模型和启发式方法来解决难题，但我认为人类可能不具备当今法学硕士那样的学习大量特定规则的能力。我猜想，这实际上是人类的局限性（工作记忆、处理速度、可用能量的限制）以及不断变化和复杂的环境，要求我们形成更抽象和可概括的内部模型。也许我们需要以类似的方式约束和挑战我们的机器，让它们更抽象地“思考”，并更好地在训练数据分布之外进行概括。

结论

LLM 中出现的抽象世界模型的说法尚未得到有力证据的支持。有证据表明，此类世界模型出现在针对狭窄领域（奥赛罗、国际象棋、迷宫等）训练的 Transformer 中，但也有证据表明，它们的能力并非来自类似人类的内部模型，而是来自大型“启发式方法包”。此外，“世界模型”的概念本身并没有严格的定义；在考虑代理是否具有特定类型的世界模型时，我们应该问这样的模型应该能够回答哪些类型的问题，代理从模型中获得答案的难易程度，以及我们期望该模型在多大程度上允许代理适应新情况。

1来自https://arxiv.org/abs/2210.13382。

2作者还尝试使用人类玩家生成的战略游戏序列作为训练数据，但这种方法对于预测合法动作的目标效果不佳。

3Li 等人还证明了内部棋盘状态编码对 OthelloGPT 预测合法走法的因果影响。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。