OPT论文精读_opt大模型论文-CSDN博客

本文链接：https://blog.csdn.net/DeerEyre/article/details/131180020

OPT是一个开源的预训练Transformer模型系列，旨在复制GPT-3的性能，但计算成本更低，环境影响小。模型参数规模从125M到175B，175B模型在性能上可与GPT-3媲美，但碳排放量仅为七分之一。文章讨论了训练细节、模型架构和评估结果，强调了模型的局限性和未来改进方向，如减少重复、提高多样性和事实准确性，并提倡负责任的大型语言模型研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

OPT: Open Pre-trained Transformer Language Models

OPT：开放式预训练transformer语言模型

引言

大型语言模型在zero-shot和few-shot学习方面表现出了非凡的能力。考虑到他们的计算成本，如果没有大量资金，这些模型很难复制。而且无法访问完整的模型权重，使其很难以研究，我们介绍了开放式预训练transformer模型（OPT），一个只有decoder的transformer预训练模型。

我们的OPT模型参数范围为125M到175B，且在实验下表明175B模型与GPT3相当，且只需要七分之一的碳排放量。

TIPS：何为zero/few-shot

Zero-shot：在没有特定任务的情况下，让模型完成任务。

Few-shot：给模型提供少量特定任务的训练样本，帮助模型更好的理解任务（给出示例）

介绍

背景

LLM大模型表现优异
付费API等资源限制使得人们的交互有限
交互有限阻碍了科技进步
开发OPT
- 匹配GPT3的性能和大小
- 在数据收集和高效训练方面应用最新的最佳实践
- 实现可重复和负责任的大规模研究
- 发布内容
  - 发布参数范围内的所有模型
  - 模型日志
  - 代码库metaseq，该代码库允许在992个80G A100 GPU上训练OPT-175B，每个GPU利用率达到147 TFLOP/s。

模型架构展示

层数L，注意力头数量H，嵌入大小dmodel，峰值学习率LR，全局batch

实验方法

训练步骤

使用megatron-lm代码库中的相同设置进行权重初始化
- 使用0均值和0.006的正态分布
- 输出层的标准差按照 $\frac{1}{\sqrt{2L}}$ 缩放，L为层数
- 所有偏置初始为0
- activation=‘relu’ and seq-len=2048
AdamW优化器，（β1，β2）设置为（0.9，0.95），重量衰减为0.1。
- 我们遵循线性学习率时间表，在OPT-175B中的前2000个步骤中从0升温到最大学习率，或在我们的较小baseline中超过375M个token，并在超过300B个token的情况下衰减到最大LR的10%。后续还要对LR进行一些更改。
- 我们的批量大小从0.5M到4M不等，具体取决于型号大小，并且在整个训练过程中保持不变。
dropout=0.1，gradient norms = 1.0，并在梯度溢出和下溢时除以根号N，N为world-size。

预训练语料

Roberta
1. BookCorpus
2. Stories子集
3. CCNews
The Pile
1. CommonCrawl
2. DM Mathematics、
3. Project Gutenberg、
4. HackerNews、
5. OpenSubtitles、
6. OpenWebText2、
7. USPTO
8. 维基百科。
PushShift.io Reddit
1. PushShift.io语料库的一个子集

中使用的数据集串联

通过MinhashLSH过滤掉Jaccard相似度≥0.95的文档，删除了所有数据集中的重复文档。我们发现Pile中充满很多了重复文件，并建议未来的研究人员使用Pile进行额外的重复数据消除处理。使用GPT-2字节级BPE标记器对所有语料库进行标记我们的最终语料库包含大约180B个token。

训练过程

在这里，我们描述了OPT-175B预训练期间出现的重要训练过程调整

硬件故障
损失分歧
- 当损失出现分歧时，我们发现降低学习率并从早期检查点重新开始可以让工作恢复并继续训练。我们注意到损失发散、我们的动态损失标量崩溃到0和最终层尖峰激活的L2范数之间的相关性。
- 这些观察结果使我们选择了我们的动态损失标量仍处于“健康”状态（≥1.0）的重启点，之后我们的激活规范将呈下降趋势，而不是无限增长。我们的经验LR时间表如下图所示。
- 经验LR时间表。我们发现，降低学习率有助于避免不稳定。
- 该图为训练迭代方面的验证损失，我们在mid-flight途中的LR变化对验证困惑产生了明显的影响。
其他变更
- 切换到vanilla-SGD（优化很快趋于平稳，我们恢复到AdamW）；
- 重置动态损失标量（这有助于恢复一些但不是所有的发散）；
- 并切换到新版本的megatron（这降低了激活规范的压力并提高了吞吐量）