解析大模型中的Scaling Law

写在前面

来自:NLP工作站

nice!这是一个快速了解LLM时代下最新研究的学术分享平台

今天给大家带来一篇《解析大模型中的Scaling Law》,来自知乎@nghuyong

知乎:https://zhuanlan.zhihu.com/p/667489780

在大模型的研发中,通常会有下面一些需求:

  • 计划训练一个10B的模型,想知道至少需要多大的数据?

  • 收集到了1T的数据,想知道能训练一个多大的模型?

  • 老板准备1个月后开发布会,能用的资源是100张A100,那应该用多少数据训一个多大模型最终效果最好?

  • 老板对现在10B的模型不满意,想知道扩大到100B模型的效果能提升到多少?

以上这些问题都可以基于Scaling Law的理论进行回答。本文是阅读了一系列caling Law的文章后的整理和思考,包括Scaling Law的概念和推导以及反Scaling Law的场景,不当之处,欢迎指正。

核心结论

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具体如下:

  1. 对于Decoder-only的模型,计算量(Flops), 模型参数量, 数据大小(token数),三者满足: 。(推导见本文最后)

  2. 模型的最终性能「主要与」计算量,模型参数量和数据大小三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。

e005326347d9c36bf43da1175adac2ae.png

固定模型的总参数量,调整层数/深度/宽度,不同模型的性能差距很小,大部分在2%以内

  1. 对于计算量,模型参数量和数据大小,当不受其他两个因素制约时,模型性能与每个因素都呈现「幂律关系」

e5b81a9a70ad5b936bb4c539c8aba1c3.png
basic
  1. 为了提升模型性能,模型参数量和数据大小需要同步放大,但模型和数据分别放大的比例还存在争议。

  2. Scaling Law不仅适用于语言模型,还适用于其他模态以及跨模态的任务[4]:

d6a842ca4c8a5f4d1b4b586db5deb928.png
multi_modal

这里横轴单位为PF-days: 如果每秒钟可进行次运算,就是1 peta flops,那么一天的运算就是,这个算力消耗被称为1个petaflop/s-day。

核心公式

d157b51ff05fdb91e19778d2c27c93d4.png
  • 第一项是指无法通过增加模型规模来减少的损失,可以认为是数据自身的熵(例如数据中的噪音)

  • 第二项是指能通过增加计算量来减少的损失,可以认为是模型拟合的分布与实际分布之间的差。

根据公式,增大(例如计算量),模型整体loss下降,模型性能提升;伴随趋向于无穷大,模型能完美拟合数据的真实分布,让第二项逼近0,整体趋向于

大模型中的Scaling Law

GPT4

下图是GPT4报告[5]中的Scaling Law曲线,计算量和模型性能满足幂律关系

de2df8c6ef249969f7d54d7771467e6d.png
  • 横轴是归一化之后的计算量,假设GPT4的计算量为1。基于10,000倍小的计算规模,就能预测最终GPT4的性能。

  • 纵轴是"Bits for words", 这也是交叉熵的一个单位。在计算交叉熵时,如果使用以 2 为底的对数,交叉熵的单位就是 "bits per word",与信息论中的比特(bit)概念相符。所以这个值越低,说明模型的性能越好。

Baichuan2

下图是Baichuan2[6]技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能,可预测出最后7B模型和13B模型在2.6T数据上的性能

35db4f94a7c5988a9c798d345abfae50.png

MindLLM

下图是MindLLM[7]技术报告中的Scaling Law曲线。基于10M到500M的模型在10B数据上训练的性能,预测出最后3B模型在500B数据上的性能。

695b61273fc766aa7a6bb85d4dd3bb24.png

Scaling Law实操: 计算效率最优

根据幂律定律,模型的参数固定,无限堆数据并不能无限提升模型的性能,模型最终性能会慢慢趋向一个固定的值。

f07f00d476f58fffad15011f432c40e3.png

如图所示,如果模型的参数量为(图中紫色的线),在数量达到,模型基本收敛。所以在数据量达到后,继续增加数据产生的计算量,没有同样计算量下提升模型参数量带来的收益大(「计算效率更优」)。根据,可以进一步转换成模型参数与计算量的关系,即: 模型参数为,在计算量为 Flops,即 PF-days时基本收敛。也就是右图中紫色线的拐点。

按照上面的思路,下面进行Scaling Law的实操

首先准备充足的数据(例如1T),设计不同模型参数量的小模型(例如0.001B - 1B),独立训练每个模型,每个模型都训练到基本收敛(假设数据量充足)。根据训练中不同模型的参数和数据量的组合,收集计算量与模型性能的关系。然后可以进一步获得「计算效率最优」时,即同样计算量下性能最好的模型规模和数据大小的组合,模型大小与计算量的关系,以及数据大小与计算量的关系。

e5ab05150660b6440ece71881f4f241f.png

如图所示,根据左图可以看到计算量与模型性能呈现幂律关系(可以认为数据和模型都不受限制),根据中图和右图,可以发现,即计算效率最优时,模型的参数与计算量的幂次成线性关系,数据量的大小也与计算量的幂次成线性关系。

根据,可以推算出,但是分别是多少存在分歧。

OpenAI[1]认为模型规模更重要,即,而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都验证了,即模型和数据同等重要。

所以假定计算量整体放大10倍,OpenAI认为模型参数更重要,模型应放大 (5.32)倍,数据放大 (1.86)倍;后来DeepMind和Google认为模型参数量与数据同等重要,两者都应该分别放大 (3.16)倍。

465a0598958c0b9c3473bc81d8dafa9d.png

例如在PaLM的实验中,计算量从放大10倍到, 模型参数提升了3.2倍,3.35B->10.7B。

具体最好在自己的数据上做实验来获得你场景下的和。

LLaMA: 反Scaling Law的大模型

假设我们遵循「计算效率最优」来研发LLM,那么根据Scaling Law,给定模型大小,可以推算出最优的计算量,进一步根据最优计算量就能推算出需要的token数量,然后训练就行。

但是「计算效率最优」这个观点是针对「训练阶段」而言的,并不是「推理阶段」

Meta在LLaMA[8]的观点是:给定一个模型的目标性能,并不需要用最优的计算效率在「最快」时间训练好模型,而应该在更大规模的数据上,训练一个相对「更小」模型,这样的模型在推理阶段的成本更低,尽管训练阶段的效率不是最优的(同样的算力其实能获得更优的模型,但是模型尺寸也会更大)。所以尽管根据Scaling Law,10B模型只需要200B的数据,但是作者发现7B的模型性能在1T的数据后还能继续提升。

9ac2a2e9aa0bcea04690817c03cff3ff.png

所以LLaMA工作的重点是训练一系列语言模型,通过使用更多的数据,让模型在「有限推理资源下有最佳的性能」

具体而言,确定模型尺寸后,Scaling Law给到的只是最优的数据供给,或者说是一个「至少」的数据量,实际上观察在各个指标上的性能表现,只要还在继续增长,就可以持续增加训练数据。

78063af2e4b9e8b5a1b419d9a5b53b73.png

计算量、模型和数据大小的关系推导

对于Decoder-only的模型,计算量(Flops), 模型参数量(除去Embedding部分), 数据大小(token数), 三者的关系为:

推导如下,记模型的结构为:

  • decoder层数:

  • attention 隐层维度:

  • attention feedforward层维度: , 一般来说

首先推导模型的参数量(忽略embedding,norm和bias)计算如下:

transformer每层包括: self-attetion 和 MLP 两个部分:

  • self-attention的参数为,每个矩阵的维度均为,整体参数量:

  • MLP的层数的参数为,整体参数量:

所以每层的参数量为: ,全部的层的参数量为: ,即

继续推导模型的前向推理的计算量:

计算量的单位是FLOPs,floating point operations, 对于矩阵,相乘的计算量为,一次加法一次乘法。

假设Decoder层的输入, 为batch size,为序列长度, 为模型维度。

  • self-attention部分的计算:

    • 输入线性层: ,计算量为:

    • atention计算: ,计算量为:

    • socre与V的计算: ,计算量为:

    • 输出线性层: ,计算量为:

  • MLP部分的计算

    • 升维: ,计算量为:

    • 降维: ,计算量为:

所以整个decoder层的计算量为:,全部层为:

反向传播计算量是正向的2倍,所以全部的计算量为:

平均每个token的计算量为 ()

所以对于全部包含个token的数据集:

参考资料

  • [1] Scaling Laws for Neural Language Models: https://arxiv.org/abs/2001.08361

  • [2] Training Compute-Optimal Large Language Models: https://arxiv.org/abs/2203.15556

  • [3] PaLM: https://arxiv.org/abs/2305.10403

  • [4] Scaling Laws for Autoregressive Generative Modeling: https://arxiv.org/abs/2010.14701

  • [5] GPT-4: https://arxiv.org/abs/2303.08774

  • [6] Baichuan 2: https://arxiv.org/abs/2309.10305

  • [7] MindLLM: https://arxiv.org/abs/2310.15777

  • [8] LLaMA: https://arxiv.org/abs/2302.13971

  • [9] 人工智能中的算力单位Petaflop/s-day: https://zhuanlan.zhihu.com/p/106406433

  • [10] https://www.zhihu.com/question/629230332/answer/3278779348

  • [11] 介绍一些Scaling Laws: https://zhuanlan.zhihu.com/p/631357320

  • [12]  分析transformer模型的参数量、计算量、中间激活、KV cache: https://zhuanlan.zhihu.com/p/624740065

ea0cba467dfef55f43e60f67e179104f.png


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

7a28ebc25f5298514859d08e55a1be37.png

id:DLNLPer,记得备注呦

c24e9bfa99d2081ef867ff0aef7df366.png

### 大型模型缩放定律 #### 数学表示 大型模型缩放定律描述了模型性能随参数数量、训练数据量以及计算资源增加而变化的关系。研究表明,在一定范围内,随着这些变量的增长,模型的表现会持续提升[^4]。 对于Transformer架构而言,当扩大模型规模时,可以观察到损失函数值逐渐减小的趋势。具体来说,如果设\( L \)为验证集上的平均负对数似然度,则存在如下关系: \[ L(N, D, C) ≈ k_1 N^{-\alpha} + k_2 D^{-\beta} + k_3 C^{-\gamma}, \] 其中 \( N \), \( D \), 和 \( C \) 分别代表参数数目、样本大小和浮点运算次数;\( α \), \( β \), 及 \( γ \) 是经验常数;\( k_i \)(i=1,2,3) 表示其他影响因子。 ```python import numpy as np from matplotlib import pyplot as plt def loss_function(n_params, n_samples, flops): alpha, beta, gamma = 0.5, 0.3, 0.7 # 假定的经验指数 k1, k2, k3 = 1., .5, .8 # 影响系数 return k1 * pow(n_params, -alpha) + \ k2 * pow(n_samples, -beta) + \ k3 * pow(flops, -gamma) n_params_range = np.logspace(1e6, 1e9, num=50) losses = [loss_function(p, 1e7, 1e18) for p in n_params_range] plt.plot(np.log10(n_params_range), losses) plt.xlabel('Log Parameter Count') plt.ylabel('Loss Value') plt.title('Effect of Increasing Parameters on Loss Function') plt.show() ``` 此图展示了通过增大参数数量如何降低损失函数的理论趋势。 #### 实际应用 在实践中,遵循缩放法则可以帮助研究人员预测更大规模网络的效果,并据此规划硬件需求和技术路线。例如,在视觉领域的大规模预训练任务中,通过合理配置GPU集群并适当调整超参设置,能够有效提高最终成果的质量[^1]。 此外,理解缩放规律也有助于优化小型化部署方案的设计思路——即如何选取合适的子网结构以保持较高精度的同时减少资源消耗。 #### 最新进展 最新的研究不仅关注单维度扩展的影响,还探索多维联合增长模式下的最优路径。比如,有学者发现同步增加宽度(隐藏层单元数)、深度(层数)与批量尺寸可以在不显著牺牲效率的前提下获得更好的泛化能力。与此同时,“解释调整”技术也被引入进来作为改进策略之一,旨在使小型模型更好地模拟大型模型的行为特征而非仅仅复制其输出结果[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值