大模型正在“内丹修炼”中..

本文探讨了高级大模型市场的竞争,如GPT-4Turbo和Meta的Llama3,焦点在于提升模型的复杂问题解决能力和Reasoning能力。文章介绍了Transformer架构的‘内丹修炼’,如Mixture-of-Depths(MoD)和Quiet-STaR,它们通过改进处理复杂度和思考策略来增强模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今年以来, 高级大模型市场正在变得愈发“拥挤”。Claude 3 Opus、Gemini Pro 1.5 和GPT-4 Turbo 在各类Leaderboard上轮番登顶,不断上演“城头变幻大王旗”的戏码;而Meta将在未来数周内发布Llama 3,OpenAI则计划在“不久的将来”发布GPT-5。

在multimodal风头无两的同时,高级大模型的比拼正在重回其初始目标:解决更复杂的问题。例如,GPT-4 Turbo的最新版本强调了其在Math、Logical Reasoning和Coding方面的提升,而OpenAI和Meta AI的高管也表示System-2级别的Reasoning能力是下一代大模型的核心竞争力。

细数下来,语言大模型的Reasoning能力提升主要有三条路径(图1):

  • 一是借助CoT、ToT、Plan-Reflection等技巧的“外家功夫”;
  • 二是利用推演过程(例如,数学题的演算步骤)和强化学习进行预训练的“内功心法”;
  • 以及直接改造Transformer架构的“丹修炼”。

1: 外家功夫 vs 内功心法 vs 内丹修炼

绝大多数大模型厂商已经将第一条路径让给了生态体系,而第二条路径当下又缺乏泛化性。所以,“内丹修炼”,即改造Transformer,是硅谷当下的“显学”。

我们今天便分享一些有趣的“炼丹”思路和论文。

炼丹

Transformer在System-2的实现之路上有着诸多障碍,Andrej Karpathy曾诟病大模型缺

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老油杂谈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值