Scaling Law 概述

最新推荐文章于 2024-07-15 11:10:41 发布

lichunericli

最新推荐文章于 2024-07-15 11:10:41 发布

阅读量969

点赞数 15

分类专栏： LLM 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/lichunericli/article/details/138427290

版权

Scaling Law，源于OpenAI的论文，揭示了神经语言模型性能与模型大小、数据集大小、计算量间的幂律关系。模型性能提升最显著的是计算量，其次是模型参数，数据集大小影响较小。这一理论指导了大型模型训练，但也引发是否模型越大越好、数据需求是否可持续等争议。一些研究者提倡通过合成数据和高效利用现有数据来应对数据需求挑战，而另一些人则质疑模型的泛化能力和智能水平。

摘要由CSDN通过智能技术生成

自 OpenAI 发布 Sora，业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节，但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即，支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively，随着训练计算量增加，视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。

Scaling Law 是什么？

OpenAI在2020年发布的论文《Scaling Laws for Neural Language Models》中，探讨了神经语言模型性能的标度律。这篇论文的核心发现是，语言模型的性能（以交叉熵损失来衡量）与模型大小、数据集大小以及用于训练的计算量之间存在幂律关系。这些关系在超过七个数量级的范围内表现出了稳定的趋势。具体来说，当模型大小、数据集大小或计算量增加时，模型的性能会按幂律提高。此外，论文还指出，在一定的范围内，网络宽度或深度的变化对模型性能的影响相对较小。

OpenAI的这篇论文揭示了在训练大型语言模型时的一些关键规律，对后续的研究和应用产生了深远影响。例如，该论文指出，为了训练更大的模型，增加模型参数数量比增加训练集大小更为重要。这一发现对如何有效分配计算资源提供了指导，即通过训练非常大的模型来提高样本效率，并且可以在模型未完全收敛前停止训练。