文献阅读--Scaling Laws for Neural Lauguage Models

预印本2020
https://arxiv.org/pdf/2001.08361.pdf

智源大会一个panel中在讨论区,一个同行提到的一篇文章。
我们现在确实比较缺乏,train model 策略理论上的支撑。
这里给出了一个 实验上的结论。
其实,当时Vit的作者提到,他们后续会发一个关于Vision model的 scaling law

做了什么:

从实验上调查,语言模型loss和众多因素的关系,这些因素包括:模型架构,网络模型的size,用来训练的算力,可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。

结论的一个总结:

  1. 模型的performance strongly depends on scale ( para-data-compute), weakly depends on model shape(depth & width)
  2. 平滑的幂律,考虑模型参数N,数据集规模D,训练算力C,当一个量不收到另外两个量的瓶颈时,在六个order of magnitude 上, 呈现出比较好的幂律规律,具体的数值,论文中有公式。
  3. 过拟合的普遍性:这是一个再train大模型的时候非常常见的问题。大模型通常指:大的数据集和大的模型参数。通常来说,数据集合模型参数都增加会带来可预见的模型性能增加,但是只增加 数据集或者模型参数,会有收益递减的效果。而他们给出一个公式:则是说,模型增长8倍,通常只需要数据量增加5倍数。
  4. 训练的普遍性:训练曲线大致也是一个幂函数的规律,训练的??这里没太看明白
  5. 训练验证和测试的分布的转换会带来跟好的test performance:就是说,测试的性能和验证集密切相关,而验证集和测试集的分布有差异,虽然会带来一些penalty,但是这样的差异,也使得测试性能和train set的性能更加相似。
  6. 样本效率:大的模型是更加具有 样本效率的,大的模型达到和小的模型相同的性能只需要更少的optimization step 和 fewer data point
  7. 收敛效率底下:当有固定的算力,但是,数据集大小和模型不受限制的时候,我们训练大模型并且很快就停止训练,可以得到理想的解。图三说明了一个事情,当有固定的算力时候,增大模型所带来的性能提升要比增大数据量所带来的性能提升快。
  8. 理想的batch size:给出了一种方法去计算。

核心: We need larger model

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值