小周带你读论文之语言模型的进阶Scaling Laws 幂律，（参数/数据量/算力的最优解）

最新推荐文章于 2024-05-04 19:56:07 发布

周博洋K

最新推荐文章于 2024-05-04 19:56:07 发布

阅读量874

点赞数 12

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136105829

版权

本文探讨了在语言模型训练中，参数量、数据量和算力之间的幂律关系。通过公式C=6*N*D，解释了模型性能与资源的平衡点。在固定算力下，如何选择模型参数与训练数据量以达到最佳性能，以及不同数据集和模型架构对结果的影响。同时，文章指出OpenAI和Deepmind对于模型和数据量的最优解有不同的理解，强调在实践中需要根据自身数据质量调整策略。

摘要由CSDN通过智能技术生成

1,2,3上链接：2001.08361.pdf (arxiv.org)

幂律：所谓幂律，是说节点具有的连线数和这样的节点数目乘积是一个定值，也就是几何平均是定值，比如有10000个连线的大节点有10个，有1000个连线的中节点有100个，100个连线的小节点有1000个……，在对数坐标上画出来会得到一条斜向下的直线。

我们这篇文章主要针对以下场景和问题：

给定你一个7B模型，你知道用多大的数据量train，它能最优？
给顶你一个0.5T token的数据，我需要用多大的参数的模型能最优？
以上两点需要考虑算力吗？如果算力恒定该怎么考虑
我的数据从0.5T上升到了1.5T，需要更多的数据还是更少的数据能达到相同的效果？

讲这些问题之前，我们先明白一个公式：

C=6*N*D

C：算力的大小（Tflops），不算embedding
N：模型的parameters数量，也就是参数量，不算embedding
D：进入模型的训练Token数量

为什么会有6ND这个说法呢？

又得上这张老图

实际上你深度学习每次前向计算，就是算矩阵乘法，矩阵乘法就是一次加一次乘，一个parameters，要对应2次浮点计算，所以要乘以2

而我们做反向求导的时候呢，你又得算误差又得算新weight，所以是前向计算的两倍，这就是要乘以4

两种计算加起来就是每个参数在做深度学习的时候要计算6次浮点运算的原因

最低0.47元/天解锁文章

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
小周带你读论文之语言模型的进阶Scaling Laws 幂律，（参数/数据量/算力的最优解）

我们又能发现一个问题，从下到上看，算力每增加10倍，最优的Parameters提升3倍左右，那延伸一下，就是如果我们再提升10倍算力，下一个模型尺寸应该是30B是最优的（其实是33B，34B左右）这也就能看出来现在市面上的模型尺寸，没有一个是纯拍脑袋拍出来的。最后一个发现，在恒定的算力下比较，模型无限的提升参数，反而性能是下降的，因为C=6ND，N和D是成反比关系，如果模型参数增加过大，想最优，数据量反而要变少，变少，你表现力就不够，知识少，就是这样的一个简单的道理。
复制链接

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

98: 原创

6万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

3011: 积分

1491: 粉丝

2029: 获赞

14: 评论

1674: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！
导致OpenAI内乱的罪魁祸首，背后的技术是什么？
CSDN-Ada助手: 恭喜您撰写了第16篇博客，标题引人入胜，内容也很有深度。对于OpenAI内乱的探讨让人颇为关注，同时也期待能够了解更多背后的技术细节。或许接下来可以深入分析一下可能的解决方案，或者对未来发展方向进行展望，这样能够更全面地呈现给读者。希望您能继续保持创作，期待您更多的精彩内容！
LLM 2023年总结 2024年展望
CSDN-Ada助手: 恭喜作者在2023年度完成了LLM的总结和展望，并且在博客上分享了这些宝贵的经验和见解。希望在2024年，作者可以继续保持对于法律领域的热情和创作力，可以多关注一些新的法律趋势和案例分析，为读者带来更多有价值的内容。祝愿作者在新的一年里取得更大的进步，创作更多受欢迎的博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。