TinyLlama-1.1B：从零开始训练一个精悍的语言模型

最新推荐文章于 2025-04-19 16:16:03 发布

PaperWeekly

最新推荐文章于 2025-04-19 16:16:03 发布

阅读量1.5k

点赞数

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132893096

版权

TinyLlama 项目旨在构建一个在 3 万亿 tokens 上预训练的 11 亿参数 Llama 模型。采用 16 块 A100-40G GPU，预计 90 天内完成。模型基于 Llama 架构，适合有限计算资源的应用，如手机上的离线运行。项目已在 2023-09-01 开始，提供中间 checkpoint 并对比基线模型，展示良好训练进度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | StatNLP

单位 | 新加坡科技设计大学

TinyLlama 项目旨在在 3 万亿 tokens 上进行预训练，构建一个拥有 11 亿参数的 Llama 模型。经过精心优化，我们“仅”需 16 块 A100-40G 的 GPU，便可在 90 天内完成这个任务🚀🚀。模型训练已于 2023-09-01 开始，目前还在训练中。

我们采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以在许多基于 Llama 的开源项目中即插即用。此外，TinyLlama 只有 1.1B 的参数，体积小巧，适用于需要限制计算和内存占用的多种应用。

背景与动机

1.1 从Llama 1/2 中的一些观察开始

以上是从 Llama 2 论文中摘取的训练损失曲线。他们论文中提到即使在对 2 万亿个 token 进行预训练后，模型仍然没有显示出任何饱和迹象。这意味着 Llama 2 的训练可以继续下去，而且还有较大的提升空间。这与之前 Chinchilla Scaling Law 的预期非常不一样（Chinchilla Scaling Law 认为 7B 的模型最优的训练 token 数量是 140B 左右）。