今年以来, 高级大模型市场正在变得愈发“拥挤”。Claude 3 Opus、Gemini Pro 1.5 和GPT-4 Turbo 在各类Leaderboard上轮番登顶,不断上演“城头变幻大王旗”的戏码;而Meta将在未来数周内发布Llama 3,OpenAI则计划在“不久的将来”发布GPT-5。
在multimodal风头无两的同时,高级大模型的比拼正在重回其初始目标:解决更复杂的问题。例如,GPT-4 Turbo的最新版本强调了其在Math、Logical Reasoning和Coding方面的提升,而OpenAI和Meta AI的高管也表示System-2级别的Reasoning能力是下一代大模型的核心竞争力。
细数下来,语言大模型的Reasoning能力提升主要有三条路径(图1):
- 一是借助CoT、ToT、Plan-Reflection等技巧的“外家功夫”;
- 二是利用推演过程(例如,数学题的演算步骤)和强化学习进行预训练的“内功心法”;
- 以及直接改造Transformer架构的“内丹修炼”。
图1: 外家功夫 vs 内功心法 vs 内丹修炼
绝大多数大模型厂商已经将第一条路径让给了生态体系,而第二条路径当下又缺乏泛化性。所以,“内丹修炼”,即改造Transformer,是硅谷当下的“显学”。
我们今天便分享一些有趣的“炼丹”思路和论文。
“炼丹”思路
Transformer在System-2的实现之路上有着诸多障碍,Andrej Karpathy曾诟病大模型缺