揭密 scaling laws

最新推荐文章于 2024-10-07 00:34:40 发布

deardao

最新推荐文章于 2024-10-07 00:34:40 发布

阅读量1k

点赞数 3

文章标签：机器学习

本文链接：https://blog.csdn.net/liangdaojun/article/details/138252958

版权

Scaling laws

OpenAI 在其早期的关于 scaling laws 的论文 [1] 中提出了基础理论，但该文缺乏一些具体的求解过程，且未能在更大规模的模型上进行验证。与此同时，后续研究，例如 DeepMind 的 ChinChilla [2] 还提出了不同的结论。
论文题目：
Unraveling the Mystery of Scaling Laws: Part I
论文地址：
https://arxiv.org/abs/2403.06563
论文作者：
Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai

论文探究了原始 scaling laws 研究所遗漏的细节，复现一套可靠和精确的 scaling laws 公式，揭示了 ChinChilla 研究结果与 OpenAI 理论不一致的根本原因（数据分布和长下文长度不同）。

超参

例如批处理大小（batch size）、学习率（learning rate）和学习率调度器（learning rate scheduler），在模型的收敛速度上起着显著作用。然而，只要这些参数设置在一个合理的范围之内，并结合充足的训练步数与大量数据进行训练，它们对于最终的收敛损失（loss）值的影响可以忽略不计。