模型计算量估计,训练时间预测 Scaling Laws for Neural Language Models

爱串门的小马驹

已于 2024-06-16 10:58:38 修改

阅读量950

点赞数 7

分类专栏：万卡大规模集群大模型训练文章标签：语言模型人工智能自然语言处理

于 2024-06-16 10:52:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lianghuaju/article/details/139704272

版权

万卡大规模集群大模型训练专栏收录该内容

7 篇文章

订阅专栏

一、模型计算量

C ≈ 6N*D

其中C表示训练语言模型所需的总计算量，N表示模型参数量，D表示用于训练的语料总量，6表示每训练一个token所需的浮点计算量约为6N，其中前向计算2N，反向计算4N。

注意：这里的6是针对Transformers，如果其它模型结构，还请重新确定每个参数的平均计算量。开了激活点检查activation checkpoint，这个系数是8。

激活检查activation checkpoint通过在前向传播过程中只存储一部分（而不是全部）的激活值来减少存储空间消耗。对于没有存储的激活值，如果在后向传播过程中需要它们，就重新计算这些值。这种方法可以显著减存储占用，但是会增加计算开销，因需要重新计算一些激活值。

举个例子

哈哈哈，还是例子好理解。

比如我现在要训练模型参数量为175B，用于训练的语料总量为300B，即

N=175B=175*10^9

D=300B=300*10^9

那么训练模型所需的总计算量为：

C ≈ 6N*D=6*175B*300B=6*175*10^9*300*10^9=3.15*10^23=3.15*10^7 PFlops

二、模型训练耗时估计

哈哈哈，都知道所需的总的计算量，那不是轻轻松松估计训练耗时。

T=C/(MFU*S)

其中C表示训练语言模型所需的总计算量，S表示训练模型所用集群的算力，MFU(Model FLOPs Utilization)训练模型时的算力利用率。

举个例子

比如我现在训练模型所需总计算量为3.15*10^7 PFlops，集群算力能力为3924.44565 PFlops/s，训练模型时的算力利用率为55.2%，即：

C =3.15*10^7 PFlops

S=3924.4 PFlops/s=卡的数量*每张卡的算力

MFU=55.2%

则训练该模型所需的时间为：

T=C/(MFU*S)=3.15*10^7/(55.2%*3924.4)=14541秒=4小时

注意：这里的算力利用率是整个训练过程中的算力利用率，有的地方的算力利用率是计算的时候的算力利用率，不考虑纯通信和集群故障。如果想获取训练总时间，这些时间需单独考虑。

视频教程：

模型计算量预测训练时间估计_哔哩哔哩_bilibili

参考文献：

[2001.08361] Scaling Laws for Neural Language Models (arxiv.org)

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。