瑞安·拉加斯 (Ryan Lagasse),艾丹·基尔南斯 (Aidan Kiernans),阿维吉特·高什 (Avijit Ghosh) & 希里·多里-哈科亨 (Shiri Dori-Hacohen)
康涅狄格大学
康涅狄格州斯特尔斯,邮编 06226,美国
ryan.lagasse@uconn.edu
摘要
我们引入了一种在固定计算预算下微调大语言模型(LLMs)的缩放定律,该定律明确考虑了数据组成。传统方法仅通过总令牌数来衡量训练数据,但示例数量及其平均令牌长度——我们称之为数据集容量——在模型性能中起着决定性作用。我们的公式为 Accuracy = A V β M γ + E =A V^{\beta} M^{\gamma}+E =AVβMγ+E,其中 Volume V = N ⋅ L V=N \cdot L V=N⋅L(示例数量 × \times × 平均令牌长度),而 M M M 是模型大小,按照既定程序调整(Pareja 等人,2024)。在 BRICC 数据集(Salavati 等人,2024)和 MMLU 数据集子集(Hendrycks 等人,2021)上的实验,在多种子采样策略下评估,揭示了数据组成对令牌效率的显著影响。这些结果促使我们在资源受限环境下对实际的 LLM 微调进行更精确的缩放定律改进。代码将在发表后公开。
1 引言
缩放定律已经成为预测大规模神经网络性能的强大工具,如最近的研究所示(Hernandez 等人,2021;Hoffmann 等人,2022)以及在微调中的应用(Zhang 等人,2024)。然而,在针对特定领域应用微调 LLM 的背景下,这些定律通常将训练数据简化为单一指标(总令牌数),而忽略了数据固有的组成差异。在现实场景中,实践者不仅面临有限的数据,还面临数据结构的变化——即示例数量与其个体长度之间的变化。两个具有相同总令牌数的数据集如果一个包含许多短示例,另一个包含少量长示例,可能会产生截然不同的性能。因此,我们的工作扩展了现有的缩放定律,以更准确地捕捉在固定计算约束下的实际微调动态。
2 方法论
我们的方法重新定义了有效数据规模,将总令牌数分解为示例数量 N N N 和其平均令牌长度 L L L。虽然 V = N ⋅ L V=N \cdot L V=N⋅L 在数学上等同于总令牌数,但它明确强调了数据组成。我们假设微调精度按以下公式缩放:
Accuracy = A V β M γ + E \text { Accuracy }=A V^{\beta} M^{\gamma}+E Accuracy =AVβMγ+E
其中 A , β , γ A, \beta, \gamma A,β,γ 和 E E E 是调整参数(见 Zhang 等人,2024,类似方法)。在我们的实验中,我们考虑了三种不同的子采样策略——few_long、many_short 和 balanced——以隔离数据组成对性能的影响。我们在 BRICC 数据集上使用大小为 135 M , 360 M , 500 M 135 \mathrm{M}, 360 \mathrm{M}, 500 \mathrm{M} 135M,360M,500M 和 1B 的模型进行评估,在固定计算预算下从 SMOLLM、QWEN 和 Falcon 家族中选择在 Open LLM Leaderboard(Beeching 等人,2023)上表现最佳的模型对应各自模型大小。为了简洁起见,参数调整、模型和拟合过程的详细信息遵循既定方法,并在此省略,附录中包括。
3 实验
我们在 BRICC 数据集和 MMLU 子集上评估了我们的缩放定律,使用大小为 135M、360M、500M 和 1B 的模型。实验在固定计算预算下采用三种子采样策略进行。表 2 总结了每种策略的代表性性能指标和相应的数据集容量。我们的分析显示,对于给定的模型大小,性能变化与 V V V 的差异密切相关。图 1 描述了跨子采样策略的准确性分布,突显了数据组成的影响。图 2 展示了归一化的令牌效率,定义为
η norm = Accuracy − E V M γ \eta_{\text {norm }}=\frac{\text { Accuracy }-E}{V M^{\gamma}} ηnorm =VMγ Accuracy −E
这表明,当适当归一化时,更大的模型能更有效地利用额外的令牌。
表 1: 不同子采样策略下 BRIMI 的代表性性能。数据集容量 V V V 计算为示例数量与平均令牌长度的乘积。
策略 | 平均 N N N | 平均 L L L | V V V | 平均准确率 |
---|---|---|---|---|
few_long | 171 | 67.6 | 11558 | 0.278 |
many_short | 455 | 25.4 | 11570 | 0.294 |
balanced | 347 | 33.3 | 11545 | 0.294 |
图 1: 归一化的令牌效率
η
norm
=
\eta_{\text {norm }}=
ηnorm =
(
Accuracy
−
E
)
/
(
V
M
γ
)
(\text { Accuracy }-E) /\left(V M^{\gamma}\right)
( Accuracy −E)/(VMγ) 作为模型大小的函数。趋势表明,当正确考虑数据组成时,更大的模型表现出更高的令牌效率。
图 2: 每种子采样策略的准确率箱线图,展示数据组成对性能的影响。不同的中位数表明子采样策略是微调结果的关键因素。
4 讨论与结论
我们的结果清楚地表明,通过数据集容量 V = N ⋅ L V=N \cdot L V=N⋅L 纳入数据组成可以得出一种缩放定律,该定律可以预测在固定计算预算下的微调性能。观察到的子采样策略间的变异确认了训练数据的性质——而不仅仅是其总令牌数——对令牌效率有关键影响。尽管缩放参数的调整过程遵循先前的工作,但我们的公式提供了对小数据和 GPU 限制问题的更好视角,这是许多研究的现实限制,并且对于在实际的资源受限环境中优化 LLM 微调至关重要。
总之,通过捕捉数据集组成与模型大小之间的相互作用,我们的缩放定律框架为从业者提供了可操作的见解,并为未来的扩展奠定了基础,包括那些针对量化和参数高效训练的扩展。
参考文献
爱德华·比奇 (Edward Beeching),克莱门汀·福雷 (Clémentine Fourrier),内森·哈比卜 (Nathan Habib),雪恩·韩 (Sheon Han),内森·兰伯特 (Nathan Lambert),纳兹尼恩·拉贾尼 (Nazneen Rajani),奥马尔·桑塞维罗 (Omar Sanseviero),刘易斯·图恩斯塔尔 (Lewis Tunstall),托马斯·沃尔夫 (Thomas Wolf)。开放 LLM 领跑榜。https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard,2023。
丹·亨德里克斯 (Dan Hendrycks),科林·伯恩斯 (Collin Burns),史蒂文·巴西特 (Steven Basart),安迪·周 (Andy Zou),曼塔斯·马泽伊卡 (Mantas Mazeika),道恩·宋 (Dawn Song),雅各布·斯坦哈特 (Jacob Steinhardt)。测量大规模多任务语言理解,2021。URL https://arxiv.org/abs/2009.03300。
丹尼·赫尔南德斯 (Danny Hernandez),贾里德·卡普兰 (Jared Kaplan),汤姆·海尼根 (Tom Henighan),山姆·麦克坎德利什 (Sam McCandlish)。转移的缩放定律,2021。URL https://arxiv.org/abs/2102.01293。
乔丹·霍夫曼 (Jordan Hoffmann),塞巴斯蒂安·博热 (Sebastian Borgeaud),亚瑟·门什 (Arthur Mensch),埃莱娜·布哈茨卡娅 (Elena Buchatskaya),特雷弗·凯 ( Trevor Cai),伊丽莎·鲁瑟福德 (Eliza Rutherford),迭戈·德拉卡萨斯 (Diego de Las Casas),莉萨·安妮·亨德里克斯 (Lisa Anne Hendricks),约翰内斯·韦尔布 (Johannes Welbl),艾丹·克拉克 (Aidan Clark),汤姆·亨宁汉 (Tom Hennigan),埃里克·诺兰德 (Eric Noland),凯蒂·米利肯 (Katie Millican),乔治·范登德里斯切 (George van den Driessche),博格丹·达莫克 (Bogdan Damoc),奥雷利亚·盖伊 (Aurelia Guy),西蒙·奥斯因德罗 (Simon Osindero),卡伦·西蒙扬 (Karen Simonyan),埃里希·埃尔森 (Erich Elsen),杰克·W·雷 (Jack W. Rae),奥里奥尔·文亚尔斯 (Oriol Vinyals),劳伦特·西弗 (Laurent Sifre)。训练计算最优的大语言模型,2022。URL https://arxiv.org/abs/2203.15556。
阿尔多·帕雷哈 (Aldo Pareja),尼希尔·希瓦库马尔·奈亚克 (Nikhil Shivakumar Nayak),王浩 (Hao Wang),克里什纳泰贾·基拉姆塞蒂 (Krishnateja Killamsetty),苏万查德·苏达尔艾拉杰 (Shivchander Sudalairaj),赵文龙 (Wenlong Zhao),韩胜沃克 (Seungwook Han),阿比谢克·班达尔瓦达尔 (Abhishek Bhandwaldar),许广轩 (Guangxuan Xu),徐凯 (Kai Xu),韩立工 (Ligong Han),卢克·英格利斯 (Luke Inglis),阿卡什·斯里瓦斯塔瓦 (Akash Srivastava)。揭开秘密配方:小 LLM 监督微调指南,2024。URL https://arxiv.org/abs/2412.13337。
奇曼·萨拉瓦蒂 (Chiman Salavati),香农·宋 (Shannon Song),威尔玛·索萨·迪亚兹 (Willmar Sosa Diaz),斯科特·A·黑尔 (Scott A Hale),罗伯托·E·蒙特内格罗 (Roberto E Montenegro),法比西奥·穆赖 (Fabricio Murai),希里·多里-哈科亨 (Shiri Dori-Hacohen)。通过人工智能减少医学课程内容对少数群体的偏见以实现更公平的健康结果。在 AAAI/ACM 人工智能、伦理和社会会议论文集中,第 7 卷,第 1269-1280 页,2024。
张彪 (Biao Zhang),刘忠涛 (Zhongtao Liu),柯林·切里 (Colin Cherry),奥尔罕·菲拉特 (Orhan Firat)。当缩放遇到 LLM 微调:数据、模型和微调方法的影响,2024。URL https://arxiv.org/abs/2402.17193 。
附录
BRICC 数据集
BRICC 数据集(Salavati 等人,2024)是一个专有的、特定领域的基准测试,旨在评估在现实世界、低资源条件下的微调性能。它由 1,530 个注释文本段组成,这些文本段摘自[特定领域的来源,例如财务文件或客户询问]。该数据集专门策划用于性别偏差检测,具有偏向偏差类别的 1:4 分割。选择 BRICC 的动机在于其与专业化应用的相关性,以及我们使用的模型未在此数据上进行预训练的事实,确保了对迁移性能的严格测试。
MMLU 结果
为了进一步验证我们提出的缩放定律和数据组成的重要性,我们在 MMLU 数据集子集(Hendrycks 等人,2021)上进行了额外实验。这些实验遵循与 BRICC 数据集相同的设置,采用三种子采样策略(few_long、many_short 和 balanced),并在固定计算预算下评估大小为 135M、360M、500M 和 1B 的模型。
图 3 显示了归一化的令牌效率,定义为
η norm = Accuracy − E V M γ \eta_{\text {norm }}=\frac{\text { Accuracy }-E}{V M^{\gamma}} ηnorm =VMγ Accuracy −E
绘制为模型大小的函数。此图中明显的趋势表明,当通过数据集容量 V = N ⋅ L V=N \cdot L V=N⋅L 正确考虑数据组成时,更大的模型表现出更高的令牌效率。这与我们的假设一致,即模型性能不仅仅取决于总令牌数,还关键取决于这些令牌如何组成示例。
表 2: 不同子采样策略下 MMLU 的代表性性能。数据集容量 V V V 计算为示例数量与平均令牌长度的乘积。
策略 | 平均 N N N | 平均 L L L | V V V | 平均准确率 |
---|---|---|---|---|
few_long | 77.91 | 30.17 | 11558 | 0.33 |
many_short | 93.58 | 18.34 | 11570 | 0.34 |
balanced | 88.50 | 21.94 | 11545 | 0.34 |
图 3: 归一化的令牌效率作为模型大小的函数现在展示在 MMLU 人类衰老数据集上。
图 4: 每种子采样策略的准确率箱线图,显示出与 BRICC 相同的趋势。我们测试了许多其他 MMLU 轨迹并发现这一趋势是一致的。
图 3 展示了每种子采样策略的准确率箱线图。不同策略的明显中位数和变异性强调了数据结构——无论是由许多短示例主导、少量长示例还是平衡混合——对微调结果的重大影响。特别是分布的差异确认了两个具有相似总令牌数但组成不同的数据集可以产生显著不同的性能,进一步强化了我们需要数据集容量公式的需求。
这些 MMLU 结果补充了我们在 BRICC 数据集上的发现,并提供了强有力的证据,证明将数据组成纳入缩放定律对于准确预测在资源受限条件下 LLM 微调性能是必不可少的。
子采样策略
我们的实验采用了三种子采样策略来探究数据组成的影响:
- few_long: 一种选择相对较少示例但具有长令牌长度的策略,以最大化选择中的令牌长度,同时尝试达到最大令牌阈值。
-
- many_short: 一种选择大量示例但具有短令牌长度的策略,通过最大化所选示例的数量同时保持在最大令牌限制之下。
-
- balanced: 一种在示例数量和令牌长度之间保持平衡的策略,通过选择接近中位令牌长度的示例。
重要的是,所有这些都从同一个数据集中选择,随着我们增加模型的最大令牌限制,它们包含了之前运行的所有相同数据。详细的配置和实验设置在我们的补充材料和代码中提供。
- balanced: 一种在示例数量和令牌长度之间保持平衡的策略,通过选择接近中位令牌长度的示例。
其他实验细节
缩放定律参数 A , β , γ A, \beta, \gamma A,β,γ 和 E E E 按照 Zhang 等人(2024)中概述的程序进行调整。虽然这里没有报告内部参数值,但调整程序完全符合既定实践。
子采样策略和数据选择
为了探究数据组成的影响,我们实施了三种不同的子采样策略。few_long 策略选择相对较少具有长令牌长度的示例;many_short 策略选择大量具有短令牌长度的示例;balanced 策略在示例数量和令牌长度之间保持平衡。目标是覆盖实践中遇到的实际数据组成的范围。对于每种策略,我们的数据预处理管道(使用 Python 中的 Pandas 和 NumPy 实现)为每个实验条件计算 N , L N, L N,L 和因此的 V V V。
实验设计和基线比较
我们在 BRICC 数据集和选定的 MMLU 数据集子集上评估我们的缩放定律,具体来说是人类衰老、专业法律和解剖学,使用四种模型大小(135M、360M、500M 和 1B),基于它们在 HuggingFace LLM 领跑榜(Beeching 等人,2023)上的表现选择。我们的实验设计包括:
- 消融研究,我们在保持 V V V 不变的情况下独立变化 N N N 和 L L L,确认这两个组件对微调性能都有显著贡献。
-
- 与使用总令牌计数的传统缩放定律进行基线比较,展示我们的公式(使用 V V V)实现了更低的预测误差和更好的统计显著性。
参数调整程序
我们的缩放定律为
Accuracy = A V β M γ + E \text { Accuracy }=A V^{\beta} M^{\gamma}+E Accuracy =AVβMγ+E
其中 M M M 表示模型大小,参数 A , β , γ A, \beta, \gamma A,β,γ 和 E E E 使用类似于 Zhang 等人(2024)中的程序进行调整。在我们的实现中,我们对不可约性能偏移量 E E E 的合理值(范围从 0.20 到 0.30)进行了网格搜索,以确保 Accuracy − E -E −E 对所有数据点均为正。一旦为每种子采样策略选择了 E E E,则通过转换
ln ( Accuracy − E ) = ln A + β ln ( V ) + γ ln ( M ) \ln (\text { Accuracy }-E)=\ln A+\beta \ln (V)+\gamma \ln (M) ln( Accuracy −E)=lnA+βln(V)+γln(M)
将模型线性化,并应用标准线性回归(使用鲁棒损失函数,如 Huber 损失,以减轻异常值的影响)。这种调整程序在我们的 Python 代码中实现(补充材料中可用),完全符合先前工作(Zhang 等人,2024)中使用的方法。虽然我们不在正文中报告个别参数值,但我们的结果表明,指数 β \beta β 和 γ \gamma γ 随子采样策略系统变化,证实了数据组成在微调中的重要性。
模型选择和理由
我们实验中选择的模型——135M、360M、500M 和 1B 参数变体——是在撰写本文时由官方提供商发布的在 HuggingFace LLM 领跑榜(Beeching 等人,2023)上表现最佳的模型,代表了多样化的基准测试。这些模型在学术界和工业界广泛使用,
其包含使我们能够探索在实际计算约束下,令牌效率如何随模型大小变化。具体而言,我们使用 SmolLM-135M-Instruct、SmolLM-360M-Instruct、Qwen2.5-0.5B-Instruct 和 Falcon3-1B-Instruct。
代码组织
我们的分析管道用 Python 实现,并分为模块化组件:数据摄取和预处理、参数调整和缩放定律拟合,以及可视化。代码结构允许轻松复制我们的结果,并促进未来扩展,例如结合量化或参数高效微调技术。我们保存了许多结果为 CSV 文件,以便您可以查看一些批量训练结果。
参考论文:https://arxiv.org/pdf/2505.06150