小周带你读论文之语言模型的进阶Scaling Laws 幂律,(参数/数据量/算力的最优解)

本文探讨了在语言模型训练中,参数量、数据量和算力之间的幂律关系。通过公式C=6*N*D,解释了模型性能与资源的平衡点。在固定算力下,如何选择模型参数与训练数据量以达到最佳性能,以及不同数据集和模型架构对结果的影响。同时,文章指出OpenAI和Deepmind对于模型和数据量的最优解有不同的理解,强调在实践中需要根据自身数据质量调整策略。
摘要由CSDN通过智能技术生成

1,2,3上链接:2001.08361.pdf (arxiv.org)

      幂律:所谓幂律,是说节点具有的连线数和这样的节点数目乘积是一个定值,也就是几何平均是定值,比如有10000个连线的大节点有10个,有1000个连线的中节点有100个,100个连线的小节点有1000个……,在对数坐标上画出来会得到一条斜向下的直线。

      我们这篇文章主要针对以下场景和问题:

  • 给定你一个7B模型,你知道用多大的数据量train,它能最优?

  • 给顶你一个0.5T token的数据,我需要用多大的参数的模型能最优?

  • 以上两点需要考虑算力吗?如果算力恒定该怎么考虑

  • 我的数据从0.5T上升到了1.5T,需要更多的数据还是更少的数据能达到相同的效果?

    讲这些问题之前,我们先明白一个公式:

C=6*N*D

  • C:算力的大小(Tflops),不算embedding

  • N:模型的parameters数量,也就是参数量,不算embedding

  • D:进入模型的训练Token数量

     为什么会有6ND这个说法呢?

     又得上这张老图

图片

      实际上你深度学习每次前向计算,就是算矩阵乘法,矩阵乘法就是一次加一次乘,一个parameters,要对应2次浮点计算,所以要乘以2

图片

       而我们做反向求导的时候呢,你又得算误差又得算新weight,所以是前向计算的两倍,这就是要乘以4

       两种计算加起来就是每个参数在做深度学习的时候要计算6次浮点运算的原因

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值