o1核心原理揭示：LLM Inference Scaling

AGI-杠哥

于 2024-09-30 20:54:49 发布

阅读量270

点赞数 14

分类专栏： AGI 网络安全文章标签：语言模型人工智能

本文链接：https://blog.csdn.net/m0_71745484/article/details/142663695

版权

AGI 同时被 2 个专栏收录

639 篇文章 0 订阅

订阅专栏

网络安全

88 篇文章 4 订阅

订阅专栏

OpenAI 推出 o1-preview 模型，标志着全新系列模型的诞生。与 GPT2/3/4 在预训练数据和模型参数上的规模扩张不同，o1 模型着重于推理端的优化。据其技术报告，该系列模型通过增加推理时的算力和时间投入，可实现性能的显著提升。

在这里插入图片描述

▲ o1模型可以解决GPT-4o无法正确回答的抽象代数问题（例子由@jkjkmxmx提供）

这一构想与论文《An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models》中提出的推理缩放法则紧密相关。

 ![](https://img-blog.csdnimg.cn/img_convert/28dc32914b98bdd8455670c10de567c9.png)

1
论文标题：

“Empirical Study on Compute-Efficient Inference for Language Model-Based Problem Solving”

论文链接：https://arxiv.org/abs/2408.00724

本文将简要概述论文的核心观点与成果。简言之：

本文探讨了推理标度律，揭示了模型与算法性能随算力提升的演变趋势。经过对比多种推理算法，诸如采样投票、树搜索等不同变体，我们发现，在特定算力限制下，选用恰当的推理算法能使小型模型更高效地发挥算力优势，从而在性能上超越采用基础策略的大模型。

扩大预训练规模与模型规模并非提升模型的唯一途径，通过设计更高效的推理算法，有效运用推理时的算力，模型性能可得到显著提升。

 **问题背景与研究动机**

1
训练与推理是深度学习应用的两大关键环节。训练阶段，加大算力和数据量可提升模型效能。训练规模法则揭示了“大力出奇迹”的科学依据，指导我们选择模型大小与数据。推理阶段，增强算力同样提升智能。思维链和多数表决投票等策略，通过增强推理算力显著提高性能。然而，现有研究未充分探讨不同算力条件下模型性能变化及成本约束下的模型选择。本研究提出“计算最优推理”理念，探讨在固定算力下，如何选取模型大小与推理策略以最大化性能。研究揭示了算力提升时，模型大小、策略与性能的变化规律。我们测试了多种策略，包括多数表决、加权表决和平衡奖励搜索（REBASE），并在数学推理任务上评估了Pythia、Mistral和Llemma等模型。

主要发现
以Pythia模型在GSM8K数据集上的成效为例，本篇阐述了研究核心发现。我们检验了不同规模的Pythia模型，采用不同采样量的加权投票法进行推断，并分析了其FLOPs与测试误差的演变趋势。具体实验数据展示如下图所示。

Pythia模型于GSM8K数据集上展现出推理缩放规律。

图中左图展示了计算量与测试误差的关联，右图则描绘了模型规模与测试误差的关系，其中三个星星标记了FLOPs下的最佳误差与对应模型规模。分析发现，随着计算量提升，测试误差稳步减少，揭示了计算在推理中的关键作用。OpenAI的o1技术报告亦指出此现象。投票表决算法的误差降低遵循特定规律：初始快速下降后，下降速度减缓，因采样数增加对性能的提升效果递减，直至性能趋于饱和。我们已在论文中进行了严谨的理论探讨（定理1、2）。

不同算力水平对应最佳模型规模各异：左图揭示，误差最低时对应不同FLOPs区间的模型规模不一；右图则直观展示，最佳模型规模随算力提升而增大。通过回归分析，我们构建了推理FLOPs与模型规模间的关系，即推理标度律，该规律助力我们在特定计算限制下估算理想模型规模。

在计算资源受限时，小模型展现卓越性能。研究发现，并非规模越大，性能越好。小模型采用复杂推理算法（如多轮采样投票）胜过采用简易算法的大模型。算力提升后，小模型性能渐趋稳定，扩大模型规模能带来显著收益。

我们深入研究了更高级的推理算法，包括蒙特卡洛树搜索（MCTS）及自创的平衡奖励搜索（REBASE），并应用了更大参数规模的模型（7B和34B）。结果显示，小模型（如Llemma-7B）凭借更复杂的算法，仅需较少计算资源即可实现与大模型（Llemma-34B）相当的高准确率。

扩大预训练规模与模型尺寸非模型强化的唯一途径；创新推理算法，高效利用推理算力，能为模型带来显著进步。我们相信，o1 系列的设计即源于此理念。

在这里插入图片描述