​TinyLlama-1.1B:从零开始训练一个精悍的语言模型

18799ad71a23e35c12045f294920db68.gif

©PaperWeekly 原创 · 作者 | StatNLP

单位 | 新加坡科技设计大学

TinyLlama 项目旨在在 3 万亿 tokens 上进行预训练,构建一个拥有 11 亿参数的 Llama 模型。经过精心优化,我们“仅”需 16 块 A100-40G 的 GPU,便可在 90 天内完成这个任务🚀🚀。模型训练已于 2023-09-01 开始,目前还在训练中。

a85d99c39fef1208604c7b7348f2cc4e.png

我们采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以在许多基于 Llama 的开源项目中即插即用。此外,TinyLlama 只有 1.1B 的参数,体积小巧,适用于需要限制计算和内存占用的多种应用。

fe82bad19d130e11fc230e98b8c876d2.png

背景与动机

1.1 从Llama 1/2 中的一些观察开始

dd82c0c995fe61053a59767919a55d20.png

以上是从 Llama 2 论文中摘取的训练损失曲线。他们论文中提到即使在对 2 万亿个 token 进行预训练后,模型仍然没有显示出任何饱和迹象。这意味着 Llama 2 的训练可以继续下去,而且还有较大的提升空间。这与之前 Chinchilla Scaling Law 的预期非常不一样(Chinchilla Scaling Law 认为 7B 的模型最优的训练 token 数量是 140B 左右)。

c224b871b77e1f68bdcfb20a63e2747d.png

上图是一位 reddit 网友 [1] 分析的 llama2 不同大小模型的训练花费 v.s. Perplexity 的数据,从图中其实也可以观察到,很多情况下,更小的模型达到相同的 Perplexity 所需要的花费反而更小,这更坚定了我们的想法:我们可以在更多的数据上面训练更小的模型

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值