文献阅读--Scaling Laws for Neural Lauguage Models

最新推荐文章于 2024-03-07 14:39:44 发布

Flying Warrior

最新推荐文章于 2024-03-07 14:39:44 发布

阅读量1.8k

点赞数

分类专栏：文献阅读

本文链接：https://blog.csdn.net/weixin_43481320/article/details/117850449

版权

文献阅读专栏收录该内容

8 篇文章 1 订阅

订阅专栏

预印本2020
https://arxiv.org/pdf/2001.08361.pdf

智源大会一个panel中在讨论区，一个同行提到的一篇文章。
我们现在确实比较缺乏，train model 策略理论上的支撑。
这里给出了一个实验上的结论。
其实，当时Vit的作者提到，他们后续会发一个关于Vision model的 scaling law

做了什么：

从实验上调查，语言模型loss和众多因素的关系，这些因素包括：模型架构，网络模型的size，用来训练的算力，可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。

结论的一个总结：

模型的performance strongly depends on scale ( para-data-compute), weakly depends on model shape(depth & width)
平滑的幂律，考虑模型参数N，数据集规模D，训练算力C，当一个量不收到另外两个量的瓶颈时，在六个order of magnitude 上，呈现出比较好的幂律规律，具体的数值，论文中有公式。
过拟合的普遍性：这是一个再train大模型的时候非常常见的问题。大模型通常指：大的数据集和大的模型参数。通常来说，数据集合模型参数都增加会带来可预见的模型性能增加，但是只增加数据集或者模型参数，会有收益递减的效果。而他们给出一个公式：则是说，模型增长8倍，通常只需要数据量增加5倍数。
训练的普遍性：训练曲线大致也是一个幂函数的规律，训练的？？这里没太看明白
训练验证和测试的分布的转换会带来跟好的test performance：就是说，测试的性能和验证集密切相关，而验证集和测试集的分布有差异，虽然会带来一些penalty，但是这样的差异，也使得测试性能和train set的性能更加相似。
样本效率：大的模型是更加具有样本效率的，大的模型达到和小的模型相同的性能只需要更少的optimization step 和 fewer data point
收敛效率底下：当有固定的算力，但是，数据集大小和模型不受限制的时候，我们训练大模型并且很快就停止训练，可以得到理想的解。图三说明了一个事情，当有固定的算力时候，增大模型所带来的性能提升要比增大数据量所带来的性能提升快。
理想的batch size：给出了一种方法去计算。

核心： We need larger model

Flying Warrior

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
文献阅读--Scaling Laws for Neural Lauguage Models

预印本2020https://arxiv.org/pdf/2001.08361.pdf做了什么：从实验上调查，语言模型loss和众多因素的关系，这些因素包括：模型架构，网络模型的size，用来训练的算力，可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。结论的一个总结：模型的performance strongly depends on scale ( para-data-co
复制链接

扫一扫