LLM仍然缺乏规划和推理能力

在这篇博客中,我将尝试回答为什么 LLM 无法规划,并为您提供一些规划和推理的正式定义的背景知识。大多数分歧源于这样一个事实:许多人只是跳上了 AI 的潮流,并没有正式研究过 AI,这就是为什么他们不断混淆定义并得出关于 LLM 的能力、优势和劣势的错误结论。

LLM 是优秀的创意生成机器,但缺乏规划和推理能力。

涵盖的主题

  • 关于LLM能力的困惑之源

  • 定义规划、推理和形式逻辑

  • 揭穿LLM的推理和规划能力

1. LLM 可以规划和推理,这就是它们擅长代码生成的原因。2
. LLM 的涌现能力如何?
3. 思维链、ReACT 和其他代理框架如何?
4. 情境学习肯定有帮助
5. 如果我们根据领域中的成功计划对 LLM 进行微调会怎样?
6. 但 LLM 在数学奥林匹克竞赛中赢得了银牌,甚至在 ARC-AGI 挑战赛中也接近人类的表现
7. 但 LLM 可以自我批评,这肯定会提高表现

  • 为什么会有分歧和混乱?



关于LLM能力的困惑之源

我有时会开玩笑说,如果你不知道如何做 AI/ML 研究,只需增加参数,你就会得到一篇新的 LLM 研究论文。在过去的几年里,我读过很多与 LLM 相关的论文,后来发现都是假的。

我真诚地相信,大多数人并不是想欺骗系统,只是他们急于发布,因此没有进行适当的尽职调查。

但在你认为我讨厌LLM之前,请允许我介绍一下LLM的优点和缺点。

此图片的 alt 属性为空;文件名为 image-374.png

LLM 可以,但不能

此图片的 alt 属性为空;文件名为 image-362.png

让我们从技术角度进一步了解这种分歧。

我只想向那些认为LLM可以进行推理和规划并解决新任务的人问一个问题。

为什么 LLM 即使对于多项式或指数问题也能在恒定时间内做出响应?

如果你不知道这个问题的答案,那么你只是拒绝接受一个令人不安的事实:LLM基本上是一台检索机器。在进行检索时,他们有时可以通过某种形式的规划和推理,将不同的信息结合起来。

此图片的 alt 属性为空;文件名为 image-366.png

上图完美地展现了造成混淆的主要根源。

Transformer 实际上是信息路由机器,通过这种方式,它们可以学习数据集的分布。现在,任何可以通过学习给定分布来完成的任务,Transformer 都会在这些任务中表现出色,例如图像生成。但规划和推理是实例级任务,这就是为什么 LLM 在正式规划任务上表现如此糟糕的原因。

LLM 经常被称为氛围机器,这就是为什么他们可以轻松纠正文本格式,甚至抄袭伟大作家和作家的风格。最初,每个人都认为抄袭风格很难,而内容很容易。但对于 LLM 来说,事情发生了翻天覆地的变化,风格是 LLM 可以完美执行的分布属性,但内容是实例级属性,这就是为什么 LLM 写的内容非常平庸、没有灵魂、没有实质内容。

样式或分布级别属性

  • 艺术中​​,风格级别的属性可能包括定义艺术家的作品或特定艺术运动的笔触模式、调色板和构图规则。

  • 语言处理中,风格级属性可能包括表征特定作者写作风格的语气、形式或句法结构。

  • 计算机视觉中,风格级属性可以指在某个特定对象或场景类型的图像中一致的整体纹理、光照和几何图案(例如,汽车的整体形状或动物毛皮的纹理)。

实例级别属性

  • 艺术中​​,特定绘画中使用的特定笔触、细节和颜色。

  • 语言处理中,特定句子或段落中词汇、句子结构和标点符号的精确选择。

  • 计算机视觉中,图像中特定汽车的具体细节 — 颜色、品牌、型号和任何独特标记。这就是为什么在图像生成中控制每个像素如此困难的原因。

定义规划、推理和形式逻辑

大型语言模型 (LLM)(例如 GPT)主要用于根据从大量数据中学习到的模式生成文本。它们无法天生就规划或按顺序执行一段时间内的操作以实现目标。LLM 每次生成一个标记的文本,而没有对未来结果或状态的明确理解。规划需要采用结构化的方法来预见步骤和后果,这与 LLM 预测序列中的下一个单词的方式不同。

样式级属性使模型能够很好地概括同一类内的不同实例,即使新示例与之前见过的示例略有不同,它也能识别它们。然而,实例级属性允许模型区分特定示例,这对于识别或细粒度分类等任务至关重要。

如果系统无法弄清楚给定任务的底层算法,那么它就无法推理。最好的例子就是乘法和基本代数。即使我们微调 LLM 来做三位数乘法,它们也无法完成五位数乘法。现在你可能会说,当前的 LLM 可以正确地做到这一点,你是对的。但他们使用实际的计算器作为工具来做到这一点,这又是一个正式的系统。在这种情况下,它们在 LLM 模数框架中运行。

LLM 实际上是通过记忆逻辑来培养的,这就是为什么他们能够回答一些逻辑问题。

让我们定义形式逻辑。

它是一套规则和原则体系,用于分析陈述和论证的结构,确保结论符合前提的逻辑。它使用符号表示和操纵这些符号的规则来测试论证的有效性。

例如:一个正式的逻辑陈述可能是“如果 P 意味着 Q,并且 P 为真,那么 Q 也必须为真。”这遵循逻辑蕴涵规则。

STRIPS是形式规划器的一个很好的例子。这种语言是当今用于表达自动规划问题实例的大多数语言的基础;这些语言通常被称为动作语言。STRIPS 永远不会生成无效的计划。

规划系统不需要外部验证者的输入来判断规划是否正确或何时停止。即使我更改了对象的名称,它也能正常工作,因为它取决于不同对象之间的关系(神经符号),而不是它们的名称。

相比于LLM,他们不知道哪个计划是正确的,哪个计划是可行的。现在他们有时可能会给你正确的计划,经过多次重试后,该计划甚至可能奏效。但这只是从检索中得出的,而不是计划。如果你无法验证,那么它就不是一个计划。

此图片的 alt 属性为空;文件名为 image-368.png

GPT 制定的计划是无法验证的,例如,它没有检查公交服务是否实际运行,或者博物馆是否在周六实际开放。

那么那些没有退出机会的场景呢?如果你犯了一个错误,你就完了,或者你可能会陷入一个无法回头的循环。有很多问题需要一次性解决,不能重试。在这种情况下,即使是 LLM 的想法生成能力也是无用的。

鉴于 LLM 具有随机性,即使对于相同的输入,它们也总是可以采取不同的路线。因此,规划再次变得不可行。

例如,从凤凰城到维也纳的旅行计划,一部分路程步行,一部分路程骑自行车,一部分路程开车等等,可能是正确的,但可能不符合隐含的偏好

有趣的是,由于 LLM 是在我们集体输出的网络规模语料库上进行训练的,因此往往能够更好地捕捉到这些风格偏好(至少与任何其他替代 GOFAI 方法相比!)

看看这个方块世界问题中有多少幻觉。

此图片的 alt 属性为空;文件名为 image-123.jpeg

根据记忆来制定近似计划并不是推理或计划。

揭穿LLM的推理和规划能力

在本节中,我将揭穿关于 LLM 的规划和推理能力的最大谎言。我在过去博客中已经从一般意义上进行了揭露,但今天我将进行非常具体的揭露。

1. LLM 能够规划和推理,这就是他们擅长代码生成的原因。

过去有几个人向我指出,LLM 非常擅长代码生成,他们不仅可以生成代码,还可以纠正代码并发现大量错误。除非他们真正理解代码,否则这是不可能的。那么他们是如何做到的呢?

答案很简单,LLM 可以检索代码片段,而您认为 LLM 正在推理以编写代码。我知道,我知道,您对答案仍然不满意。如果您不知道如何编写一段代码,这并不意味着互联网上没有足够的完全相同的样本。我个人经常使用 Code Gen 功能,它们确实令人印象深刻,但目前无法在自主模式下工作。

现在来具体回答这个问题,如果代码生成不理解代码,它如何纠正代码?答案再次很简单,这些 LLM 不仅在最终代码上进行训练,还在 git repos 上进行训练,它们已经看到了每个 repo 中的更新。它们准确地知道每个版本的代码中发生了什么变化。因此,当您第一次提示它时,它只会检索代码的第一个版本,而当您要求它查找错误时,它会检索同一代码的下一个版本,从而给您推理和理解的错觉。

此图片的 alt 属性为空;文件名为 image-369.png

2. LLM 的涌现能力如何?

我清楚地记得,当我第一次读到《Emergence》这篇论文时,我无疑感到震惊。

因此,对于那些不知道这篇Emergence论文是什么的人来说。这篇论文声称,随着我们扩展 LLM,它们会突然开发出新的能力。我们无法预测它们会产生什么类型的能力,也无法预测它们会在什么规模上产生这些能力。这真的很危险,因为如果不受控制地扩展这些模型,可能会产生一些非常有害的行为。

以下是原文:点击此处

但后来我发现,我们之所以称之为涌现,只是因为我们不知道如何衡量不同的能力。这种错误的联想导致了对涌现的错误信念。



请注意,我并不是说规模不会导致出现,只是过去我们错误地将正常行为与出现联系在一起。

关于涌现的最大主张之一是,这些模型以某种方式自动学习了它们甚至没有接受过训练的语言。

后来我们发现,训练数据中已经包含了该语言,但我们对此一无所知。我们根本不知道互联网上到底有哪些信息,我们只是认为这些信息不可能存在,当 LLM 拾取这些信息时,我们称之为突发事件。

LLM能够解释笑话也是一样。有些网站会解释笑话,解释为什么有些东西好笑。因此,我们真的不知道LLM对笑话的解释是来自对语言的真正理解,还是来自那些检索。

3. 那么思想链、ReACT 和其他代理框架呢?

我毫不怀疑这些方法确实能够提高一些给定任务的性能,但这并不一定意味着它们能够出于合理和计划而做到这一点。



但它们似乎只是通过扩展上下文并导致“聪明的汉斯现象”而改善了答案。实际上,是你正在推理并将知识放入系统中。

思路链提示法 (CoT) 在LLM (LLM) 爱好者中已经成为一种宗教。

CoT 的基本思想是为 LLM 提供几个示例,展示如何解决问题 — — 并期望它能找出如何解决其他实例

很明显(并且相当没有争议),CoT 涉及提供额外的特定于任务/问题的知识。

问题在于这种针对特定问题的知识需要有多普遍。知识越普遍,人类就越容易提供它;但 LLM 必须进行更高程度的推理才能将其操作化。

此图片的 alt 属性为空;文件名为 image-375.png

此图片的 alt 属性为空;文件名为 image-365.png

最后,从作者本人的口中得知,即使是《CoT》的原作者也承认,在某个点之后,《CoT》的概括性并不好。

此图片的 alt 属性为空;文件名为 image-376.png

以下是他本人的总结:

  • 收益递减

  • 没有超出分布的泛化

  • 无法准确捕捉隐式算法

4. 情境化学习肯定有帮助

很多人当面直截了当地告诉我,我不懂人工智能,所以我才会胡说八道,说LLM无法推理。他们说,“你听说过情境学习吗?”我只是告诉他们,他们需要更多地了解形式逻辑和规划。

阅读本文您将会明白,即使 ReACT 也不像我们想象的那样有效。

关于 ReAct 提示代理大型语言模型的脆弱基础

  • ReACT 要求示例实例与问题具有很强的(接近句法的)相似性,这似乎是 ReACT 使用这些示例的必要条件!

  • 需要特定实例的示例。

  • 该研究还质疑了 ReAct 关于“思考标签”有效性的说法)

人们之所以认为这些代理框架有效,是因为他们根本没有意识到,他们已经在潜意识中将逻辑和推理放入系统中,因此逻辑本身是可以被检索的。

每一段逻辑都可以写成检索,但这并不意味着系统通过实际的推理或检索得出了正确的答案。

基于检索的系统通常看起来很智能,因为它能为已知问题提供正确答案。但它缺乏处理新奇、未知问题或需要推理和事实之间逻辑联系的情况的能力。

5. 如果我们根据该领域的成功计划对 LLM 进行微调,会怎么样?

最近,这篇论文表明,即使是微调也不像我们最初想象的那么有效。

微调还是微调失败?揭穿大型语言模型的性能迷思

本文指出,与基线模型相比,微调导致性能下降,这与 OpenAI 建议的独立 LLM 应用程序观察到的改进相反。这项研究强调需要对特定领域任务的微调模型进行大力研究和验证。

此图片的 alt 属性为空;文件名为 image-371.png

你想看看LLM在简单的积木世界问题上的表现吗?这是规划竞赛中一个相当标准的任务。

此图片的 alt 属性为空;文件名为 image-370.png

当我们改变对象的名称时,性能几乎降为 0,这本身就证明系统是在检索推理计划而不是实际进行推理,否则性能不会下降这么多。

微调有助于将推理转化为针对特定人群的近似检索。通过训练LLM可能已经掌握的“知识”的一部分演绎闭包。没有理由相信这实际上有助于LLM“计算”演绎闭包的其他部分。

6. 但LLM在数学奥林匹克竞赛中获得银牌,甚至在 ARC-AGI 挑战赛中也接近人类的表现

我不会再重复同样的事情。

我已经对它们两个进行了详细的介绍,如果您认为生成数千个样本然后使用形式验证器来找到解决方案是合理的,那么祝您好运。



简单来说,目前的方法依赖于通过尝试几个不同的提示来近似人类知识,不仅如此,它还需要在少样本学习中解释解决方案,然后还要尝试超过 6000 个 Python 程序,验证每个程序的结果,然后达到 50% 的微不足道的水平。它所做的只是通过为每个问题生成数千个样本来找到一种巧妙的方法来编码几个问题的解决方案,它仍然是一个检索任务,唯一的变化是现在它检索的是一堆 Python 程序。

7. 但LLM可以自我批评,这肯定会提高成绩

对于进行系统搜索的算法来说,批评/验证比生成更容易,这种想法是成立的。但对于本质上进行近似检索的 LLM 来说则不然。

大型语言模型在推理和规划任务中的自我验证局限性

此图片的 alt 属性为空;文件名为 image-364.png

这些领域存在正式的正确性概念,使我们能够自动检查 LLM 生成的(二进制)验证和批评。在基于风格/定性的任务中(例如:写一篇好文章、一个好的剧本等),这种验证是不可能的。这正是人们如此困惑的原因。

此图片的 alt 属性为空;文件名为 image-367.png

当解决这些正式规划任务的给定设置与自我批评设置相结合时,性能就会下降!随着提示次数的增加,这种自我纠正会持续降低输出质量。

为什么会有分歧和混乱?

其他几位研究人员报告的结果似乎表明某种形式的自我批评模式似乎有助于解决问题。为什么?

显性知识任务与隐性知识任务

  • 在隐性知识任务(如创意写作)中,LLM 评审的(低质量)更难确定

  • 在显性知识任务(如规划、CSP 等)中,验证和批评都可以得到正式评估。

对修正数据的近似检索可告知对正确数据的近似检索。

  • 对于最常用的领域(例如我的 Minecraft、小学应用题),训练语料库不仅包含解决方案(正确)数据,还包含校正数据(即,在错误解决方案中发现的正常错误类型)。

另一方面,文献中似乎充斥着对 LLM 规划能力的要求。

此图片的 alt 属性为空;文件名为 image-373.png

RaoK的推文完美地总结了这一情况。

此图片的 alt 属性为空;文件名为 image-363.png

让我来解释一下为什么LLM不能以分类的方式进行规划和推理。

计划并不是一个不能 100% 奏效的计划,它只是一个想法。正式的规划和逻辑要求该计划应该是可验证的,而这是 LLM 永远无法独自做到的。他们永远无法 100% 地验证自己的反应,这就是为什么他们是创意生成机器。

如果您处理过任何类型的规划问题,要么您给出正确的计划,要么说您无法给出计划,没有中间地带。

此图片的 alt 属性为空;文件名为 image-372.png

我不会深入探讨 LLM 如何在模数框架中使用。但让我给你留下我读过的最后一篇关于 AI 代理的论文。

人工智能科学家:迈向全自动开放式科学发现

这篇论文声称他们的人工智能代理可以撰写完整的论文,并完成创新所需的所有细节。

他们展示了一篇产生更好结果的论文。但问题就在这里,他们的 Agent 只是增加了参数/层的数量,从而提高了性能。这没有什么新奇之处,甚至不是研究。十年来每个人都知道增加参数会带来一些性能提升。这就是人们不断被愚弄的方式。

说实话,揭穿这些谣言既有趣又累人,但总得有人来做。我希望这篇文章能启发你对新的 Agentic 文件和说法持怀疑态度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值