LLM仍然缺乏规划和推理能力

最新推荐文章于 2024-09-27 10:58:53 发布

拉达曼迪斯II

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量766

点赞数 27

分类专栏： AIGC学习 AI创业文章标签：人工智能 AI编程 AI写作 ai AI作画

本文链接：https://blog.csdn.net/ms44/article/details/141464867

版权

AIGC学习同时被 2 个专栏收录

295 篇文章 0 订阅

订阅专栏

AI创业

292 篇文章 0 订阅

订阅专栏

在这篇博客中，我将尝试回答为什么 LLM 无法规划，并为您提供一些规划和推理的正式定义的背景知识。大多数分歧源于这样一个事实：许多人只是跳上了 AI 的潮流，并没有正式研究过 AI，这就是为什么他们不断混淆定义并得出关于 LLM 的能力、优势和劣势的错误结论。

LLM 是优秀的创意生成机器，但缺乏规划和推理能力。

涵盖的主题

关于LLM能力的困惑之源
定义规划、推理和形式逻辑
揭穿LLM的推理和规划能力

1. LLM 可以规划和推理，这就是它们擅长代码生成的原因。2
. LLM 的涌现能力如何？
3. 思维链、ReACT 和其他代理框架如何？
4. 情境学习肯定有帮助
5. 如果我们根据领域中的成功计划对 LLM 进行微调会怎样？
6. 但 LLM 在数学奥林匹克竞赛中赢得了银牌，甚至在 ARC-AGI 挑战赛中也接近人类的表现
7. 但 LLM 可以自我批评，这肯定会提高表现

为什么会有分歧和混乱？

关于LLM能力的困惑之源

我有时会开玩笑说，如果你不知道如何做 AI/ML 研究，只需增加参数，你就会得到一篇新的 LLM 研究论文。在过去的几年里，我读过很多与 LLM 相关的论文，后来发现都是假的。

我真诚地相信，大多数人并不是想欺骗系统，只是他们急于发布，因此没有进行适当的尽职调查。

但在你认为我讨厌LLM之前，请允许我介绍一下LLM的优点和缺点。

此图片的 alt 属性为空；文件名为 image-374.png

LLM 可以，但不能

此图片的 alt 属性为空；文件名为 image-362.png

让我们从技术角度进一步了解这种分歧。

我只想向那些认为LLM可以进行推理和规划并解决新任务的人问一个问题。

为什么 LLM 即使对于多项式或指数问题也能在恒定时间内做出响应？

如果你不知道这个问题的答案，那么你只是拒绝接受一个令人不安的事实：LLM基本上是一台检索机器。在进行检索时，他们有时可以通过某种形式的规划和推理，将不同的信息结合起来。

此图片的 alt 属性为空；文件名为 image-366.png

上图完美地展现了造成混淆的主要根源。

Transformer 实际上是信息路由机器，通过这种方式，它们可以学习数据集的分布。现在，任何可以通过学习给定分布来完成的任务，Transformer 都会在这些任务中表现出色，例如图像生成。但规划和推理是实例级任务，这就是为什么 LLM 在正式规划任务上表现如此糟糕的原因。

LLM 经常被称为氛围机器，这就是为什么他们可以轻松纠正文本格式，甚至抄袭伟大作家和作家的风格。最初，每个人都认为抄袭风格很难，而内容很容易。但对于 LLM 来说，事情发生了翻天覆地的变化，风格是 LLM 可以完美执行的分布属性，但内容是实例级属性，这就是为什么 LLM 写的内容非常平庸、没有灵魂、没有实质内容。

样式或分布级别属性

在艺术中，风格级别的属性可能包括定义艺术家的作品或特定艺术运动的笔触模式、调色板和构图规则。
在语言处理中，风格级属性可能包括表征特定作者写作风格的语气、形式或句法结构。
在计算机视觉中，风格级属性可以指在某个特定对象或场景类型的图像中一致的整体纹理、光照和几何图案（例如，汽车的整体形状或动物毛皮的纹理）。

实例级别属性

在艺术中，特定绘画中使用的特定笔触、细节和颜色。
在语言处理中，特定句子或段落中词汇、句子结构和标点符号的精确选择。
在计算机视觉中，图像中特定汽车的具体细节 — 颜色、品牌、型号和任何独特标记。这就是为什么在图像生成中控制每个像素如此困难的原因。

定义规划、推理和形式逻辑

大型语言模型 (LLM)（例如 GPT）主要用于根据从大量数据中学习到的模式生成文本。它们无法天生就规划或按顺序执行一段时间内的操作以实现目标。LLM 每次生成一个标记的文本，而没有对未来结果或状态的明确理解。规划需要采用结构化的方法来预见步骤和后果，这与 LLM 预测序列中的下一个单词的方式不同。

样式级属性使模型能够很好地概括同一类内的不同实例，即使新示例与之前见过的示例略有不同，它也能识别它们。然而，实例级属性允许模型区分特定示例，这对于识别或细粒度分类等任务至关重要。

如果系统无法弄清楚给定任务的底层算法，那么它就无法推理。最好的例子就是乘法和基本代数。即使我们微调 LLM 来做三位数乘法，它们也无法完成五位数乘法。现在你可能会说，当前的 LLM 可以正确地做到这一点，你是对的。但他们使用实际的计算器作为工具来做到这一点，这又是一个正式的系统。在这种情况下，它们在 LLM 模数框架中运行。

LLM 实际上是通过记忆逻辑来培养的，这就是为什么他们能够回答一些逻辑问题。

让我们定义形式逻辑。

它是一套规则和原则体系，用于分析陈述和论证的结构，确保结论符合前提的逻辑。它使用符号表示和操纵这些符号的规则来测试论证的有效性。

例如：一个正式的逻辑陈述可能是“如果 P 意味着 Q，并且 P 为真，那么 Q 也必须为真。”这遵循逻辑蕴涵规则。

STRIPS 是形式规划器的一个很好的例子。这种语言是当今用于表达自动规划问题实例的大多数语言的基础；这些语言通常被称为动作语言。STRIPS 永远不会生成无效的计划。

规划系统不需要外部验证者的输入来判断规划是否正确或何时停止。即使我更改了对象的名称，它也能正常工作，因为它取决于不同对象之间的关系（神经符号），而不是它们的名称。

相比于LLM，他们不知道哪个计划是正确的，哪个计划是可行的。现在他们有时可能会给你正确的计划，经过多次重试后，该计划甚至可能奏效。但这只是从检索中得出的，而不是计划。如果你无法验证，那么它就不是一个计划。

此图片的 alt 属性为空；文件名为 image-368.png

GPT 制定的计划是无法验证的，例如，它没有检查公交服务是否实际运行，或者博物馆是否在周六实际开放。

那么那些没有退出机会的场景呢？如果你犯了一个错误，你就完了，或者你可能会陷入一个无法回头的循环。有很多问题需要一次性解决，不能重试。在这种情况下，即使是 LLM 的想法生成能力也是无用的。

鉴于 LLM 具有随机性，即使对于相同的输入，它们也总是可以采取不同的路线。因此，规划再次变得不可行。

例如，从凤凰城到维也纳的旅行计划，一部分路程步行，一部分路程骑自行车，一部分路程开车等等，可能是正确的，但可能不符合隐含的偏好

有趣的是，由于 LLM 是在我们集体输出的网络规模语料库上进行训练的，因此往往能够更好地捕捉到这些风格偏好（至少与任何其他替代 GOFAI 方法相比！）

看看这个方块世界问题中有多少幻觉。

此图片的 alt 属性为空；文件名为 image-123.jpeg

根据记忆来制定近似计划并不是推理或计划。

揭穿LLM的推理和规划能力

在本节中，我将揭穿关于 LLM 的规划和推理能力的最大谎言。我在过去博客中已经从一般意义上进行了揭露，但今天我将进行非常具体的揭露。

1. LLM 能够规划和推理，这就是他们擅长代码生成的原因。

过去有几个人向我指出，LLM 非常擅长代码生成，他们不仅可以生成代码，还可以纠正代码并发现大量错误。除非他们真正理解代码，否则这是不可能的。那么他们是如何做到的呢？

答案很简单，LLM 可以检索代码片段，而您认为 LLM 正在推理以编写代码。我知道，我知道，您对答案仍然不满意。如果您不知道如何编写一段代码，这并不意味着互联网上没有足够的完全相同的样本。我个人经常使用 Code Gen 功能，它们确实令人印象深刻，但目前无法在自主模式下工作。

现在来具体回答这个问题，如果代码生成不理解代码，它如何纠正代码？答案再次很简单，这些 LLM 不仅在最终代码上进行训练，还在 git repos 上进行训练，它们已经看到了每个 repo 中的更新。它们准确地知道每个版本的代码中发生了什么变化。因此，当您第一次提示它时，它只会检索代码的第一个版本，而当您要求它查找错误时，它会检索同一代码的下一个版本，从而给您推理和理解的错觉。

此图片的 alt 属性为空；文件名为 image-369.png

2. LLM 的涌现能力如何？

我清楚地记得，当我第一次读到《Emergence》这篇论文时，我无疑感到震惊。

因此，对于那些不知道这篇Emergence论文是什么的人来说。这篇论文声称，随着我们扩展 LLM，它们会突然开发出新的能力。我们无法预测它们会产生什么类型的能力，也无法预测它们会在什么规模上产生这些能力。这真的很危险，因为如果不受控制地扩展这些模型，可能会产生一些非常有害的行为。

以下是原文：点击此处

但后来我发现，我们之所以称之为涌现，只是因为我们不知道如何衡量不同的能力。这种错误的联想导致了对涌现的错误信念。

请注意，我并不是说规模不会导致出现，只是过去我们错误地将正常行为与出现联系在一起。

关于涌现的最大主张之一是，这些模型以某种方式自动学习了它们甚至没有接受过训练的语言。

后来我们发现，训练数据中已经包含了该语言，但我们对此一无所知。我们根本不知道互联网上到底有哪些信息，我们只是认为这些信息不可能存在，当 LLM 拾取这些信息时，我们称之为突发事件。

LLM能够解释笑话也是一样。有些网站会解释笑话，解释为什么有些东西好笑。因此，我们真的不知道LLM对笑话的解释是来自对语言的真正理解，还是来自那些检索。

3. 那么思想链、ReACT 和其他代理框架呢？

我毫不怀疑这些方法确实能够提高一些给定任务的性能，但这并不一定意味着它们能够出于合理和计划而做到这一点。

但它们似乎只是通过扩展上下文并导致“聪明的汉斯现象”而改善了答案。实际上，是你正在推理并将知识放入系统中。

思路链提示法 (CoT) 在LLM (LLM) 爱好者中已经成为一种宗教。

CoT 的基本思想是为 LLM 提供几个示例，展示如何解决问题 — — 并期望它能找出如何解决其他实例

很明显（并且相当没有争议），CoT 涉及提供额外的特定于任务/问题的知识。

问题在于这种针对特定问题的知识需要有多普遍。知识越普遍，人类就越容易提供它；但 LLM 必须进行更高程度的推理才能将其操作化。

此图片的 alt 属性为空；文件名为 image-375.png

此图片的 alt 属性为空；文件名为 image-365.png

最后，从作者本人的口中得知，即使是《CoT》的原作者也承认，在某个点之后，《CoT》的概括性并不好。

此图片的 alt 属性为空；文件名为 image-376.png

以下是他本人的总结：

收益递减
没有超出分布的泛化
无法准确捕捉隐式算法

4. 情境化学习肯定有帮助

很多人当面直截了当地告诉我，我不懂人工智能，所以我才会胡说八道，说LLM无法推理。他们说，“你听说过情境学习吗？”我只是告诉他们，他们需要更多地了解形式逻辑和规划。

阅读本文您将会明白，即使 ReACT 也不像我们想象的那样有效。

关于 ReAct 提示代理大型语言模型的脆弱基础

ReACT 要求示例实例与问题具有很强的（接近句法的）相似性，这似乎是 ReACT 使用这些示例的必要条件！
需要特定实例的示例。
该研究还质疑了 ReAct 关于“思考标签”有效性的说法）

人们之所以认为这些代理框架有效，是因为他们根本没有意识到，他们已经在潜意识中将逻辑和推理放入系统中，因此逻辑本身是可以被检索的。

每一段逻辑都可以写成检索，但这并不意味着系统通过实际的推理或检索得出了正确的答案。

基于检索的系统通常看起来很智能，因为它能为已知问题提供正确答案。但它缺乏处理新奇、未知问题或需要推理和事实之间逻辑联系的情况的能力。

5. 如果我们根据该领域的成功计划对 LLM 进行微调，会怎么样？

最近，这篇论文表明，即使是微调也不像我们最初想象的那么有效。

微调还是微调失败？揭穿大型语言模型的性能迷思

本文指出，与基线模型相比，微调导致性能下降，这与 OpenAI 建议的独立 LLM 应用程序观察到的改进相反。这项研究强调需要对特定领域任务的微调模型进行大力研究和验证。

此图片的 alt 属性为空；文件名为 image-371.png

你想看看LLM在简单的积木世界问题上的表现吗？这是规划竞赛中一个相当标准的任务。

此图片的 alt 属性为空；文件名为 image-370.png

当我们改变对象的名称时，性能几乎降为 0，这本身就证明系统是在检索推理计划而不是实际进行推理，否则性能不会下降这么多。

微调有助于将推理转化为针对特定人群的近似检索。通过训练LLM可能已经掌握的“知识”的一部分演绎闭包。没有理由相信这实际上有助于LLM“计算”演绎闭包的其他部分。

6. 但LLM在数学奥林匹克竞赛中获得银牌，甚至在 ARC-AGI 挑战赛中也接近人类的表现

我不会再重复同样的事情。

我已经对它们两个进行了详细的介绍，如果您认为生成数千个样本然后使用形式验证器来找到解决方案是合理的，那么祝您好运。

简单来说，目前的方法依赖于通过尝试几个不同的提示来近似人类知识，不仅如此，它还需要在少样本学习中解释解决方案，然后还要尝试超过 6000 个 Python 程序，验证每个程序的结果，然后达到 50% 的微不足道的水平。它所做的只是通过为每个问题生成数千个样本来找到一种巧妙的方法来编码几个问题的解决方案，它仍然是一个检索任务，唯一的变化是现在它检索的是一堆 Python 程序。