大模型正在“内丹修炼”中..

本文探讨了高级大模型市场的竞争,如GPT-4Turbo和Meta的Llama3,焦点在于提升模型的复杂问题解决能力和Reasoning能力。文章介绍了Transformer架构的‘内丹修炼’,如Mixture-of-Depths(MoD)和Quiet-STaR,它们通过改进处理复杂度和思考策略来增强模型性能。
摘要由CSDN通过智能技术生成

今年以来, 高级大模型市场正在变得愈发“拥挤”。Claude 3 Opus、Gemini Pro 1.5 和GPT-4 Turbo 在各类Leaderboard上轮番登顶,不断上演“城头变幻大王旗”的戏码;而Meta将在未来数周内发布Llama 3,OpenAI则计划在“不久的将来”发布GPT-5。

在multimodal风头无两的同时,高级大模型的比拼正在重回其初始目标:解决更复杂的问题。例如,GPT-4 Turbo的最新版本强调了其在Math、Logical Reasoning和Coding方面的提升,而OpenAI和Meta AI的高管也表示System-2级别的Reasoning能力是下一代大模型的核心竞争力。

细数下来,语言大模型的Reasoning能力提升主要有三条路径(图1):

  • 一是借助CoT、ToT、Plan-Reflection等技巧的“外家功夫”;
  • 二是利用推演过程(例如,数学题的演算步骤)和强化学习进行预训练的“内功心法”;
  • 以及直接改造Transformer架构的“丹修炼”。

1: 外家功夫 vs 内功心法 vs 内丹修炼

绝大多数大模型厂商已经将第一条路径让给了生态体系,而第二条路径当下又缺乏泛化性。所以,“内丹修炼”,即改造Transformer,是硅谷当下的“显学”。

我们今天便分享一些有趣的“炼丹”思路和论文。

炼丹

Transformer在System-2的实现之路上有着诸多障碍,Andrej Karpathy曾诟病大模型缺乏“Slower Thinking”的能力,而Yann LeCun则认为LLMs不能“Think Before Talk” 。如果站在宏观视角,我们会发现这些障碍的主因之一就是:Transformer过于平等地对待每一个Token

在经典Transformer中,每一个Token的生成都会经历相同规模的Blocks/Layers、并耗费相同的时间(MoE会选择不同Expert,但计算规模和时间耗费没有变化)。大模型平等地对待简单的和复杂的问题,并不会因复杂度而多进行一次点积。

而当下“炼丹”的主要思路之一就是打破这种“平等”,包含两个主要方向(图2):

2: 炼丹的主要思路

  • 其一,分而治之(Divide & Conquer,建立Token的“分类”机制,能够依据Prompt的复杂度来匹配合适的计算资源;
  • 其二,思而后言(Think before Talk,建立Transformer的“思考”机制,Token的生成并非完全取决于概率,而是在多个方案中择优。

分而治

Google DeepMind最近所提出的Mixture-of-Depths(MoD)便是“分而治之”的探索实践。MoD的主要思路是:

通过前置Router,以实现对每个Token的动态计算资源分配、降低总体FLOP规模并保证生成的准确性。

MoD的每个Layer均由两条线路构成(图3):左边是路线,Token不参与任何计算,而右边是经典路线,Token参与包括Self-Attention和MLP的所有计算。MoD主要工作方式如下:

图3 MoD的机制*

  • 首先,由用户指定计算“预算”(Capacity),即Context Window中参与计算Token的比例,例如50%或25%;
  • 其次,Router会为每一个Token计算一个标量权重(Weight),代表Router对该Token是否应参与计算的倾向性;
  • 最后,基于预算和所有Token的权重,由Router选出top-k参与计算的Tokens,而其余的Tokens将经由速通路线抵达下一层Layer。

该Router由Neural Network实现,并通过参与Gradient Descent Optimization与MoD共同训练而成。

MoD的测评结果相当不错:因为有相当数量的Token不参与计算,MoD能够减少50%FLOPs、提升60%+Forward Pass速度并同时保证生成质量

显然,在MoD中,每个Token不再平等。虽然Router还未能实现依据问题的复杂度来匹配资源,但MoD在Token级别的实践也验证了“分而治之”的可行性。


 

思而后

人们抱怨大模型的“胡说八道”。但事实上,Transformer并非不知道正确答案,而只是做出了错误的选择

DeepMind的另一篇论文《Chain-of-Thought Reasoning Without Prompting》便印证了上述观点。该论文发现,当生成答案的第一个Token时,正确答案往往不在Logits中的最优候选(top-1)所代表的路径上,而是出现在其他次优候选(top-k)的路径中,例如在下图中,top-2/4,而非top-1,代表正确答案(图4),而且次优候选路径所提供的答案质量堪比CoT:

4: 正确答案往往会出现在次优候选路径**

但经典Transformer并不具备探索多个次优候选路径、并评估其正确性的能力,而只是随机从top-k中抽取一个概率较高的候选展开回答。该机制导致了大模型,即使在知道正确答案的情况下,也不能正确作答

上述的发现让硅谷的科学家们开始试图给Transformer“插上思考的翅膀”。而Standord最近发布的论文《Quiet-STaR》就代表了“插上翅膀”的实践,该论文的思路是:

Transformer结合最优路径和n条次优候选路径中的优质回答以生成下一个Token

Quiet-STaR的训练过程包含三步:

图5: Quiet-STaR的训练机制***

  • 首先,Think。Transfomer在选择最优候选路径的同时,将基于次优候选路径产生n条“Thoughts”,正如DeepMind的论文中所述,这些Thoughts大概率包含优质的回答
  • 其次,Talk。Thoughts + 最优候选路径(Mix Logits)生成新的Token;
  • 最后,Learning。基于生成的结果,使用强化学习评估每一条次优候选路径、选出最好的次优、并更新模型参数。

需要注意的是,Talk过程中的Mix Logits决定了最优和次优候选路径在预测过程中分别所占比例。此外,在Inference过程中,Quiet-STaR只生成最好的次优候选路径以提升效率

即使没有进行Fine-tuning,Quiet-STaR 也能在 CommonsenseQA(36.3%→47.2%)和 GSM8K(5.9%→10.9%)等任务上提升Zero-shot的推理能力,并且这些提升随着“Think”所使用的Thoughts包含Token数量的增加而增强(图6)。

图6: Quiet-STaR的测评结果***

Quiet-STaR的实现与采用MCTS的Alpha Go有异曲同工之妙,强化学习的引入让Transfomer可以先思考(Think),并继而在多个方案中择优以生成下一个Token(Talk)。Mix Logits的设定也让每个Token不再平等,其计算规模也将伴随着大模型对Token语义理解的不同而不同

Google DeepMind和Stanford的论文代表了行业顶尖团队的“炼丹”思路,我建议大家阅读论文原文,也许在不久的将来,我们就可以在Llama 3或者GPT-5中看到这些思路的商业实现。

相关论文

  • *:《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
  • **:《Chain-of-Thought Reasoning Without Prompting
  • ***:《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

  • 55
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老油杂谈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值