OPT: Open Pre-trained Transformer Language Models
OPT:开放式预训练transformer语言模型
引言
大型语言模型在zero-shot和few-shot学习方面表现出了非凡的能力。考虑到他们的计算成本,如果没有大量资金,这些模型很难复制。而且无法访问完整的模型权重,使其很难以研究,我们介绍了开放式预训练transformer模型(OPT),一个只有decoder的transformer预训练模型。
我们的OPT模型参数范围为125M到175B,且在实验下表明175B模型与GPT3相当,且只需要七分之一的碳排放量。
TIPS:何为zero/few-shot
Zero-shot:在没有特定任务的情况下,让模型完成任务。
Few-shot:给模型提供少量特定任务的训练样本,帮助模型更好的理解任务(给出示例)
介绍
背景
- LLM大模型表现优异
- 付费API等资源限制使得人们的交互有限
- 交互有限阻碍了科技进步
- 开发OPT
- 匹配GPT3的性能和大小
- 在数据收集和高效训练方面应用最新的最佳实践
- 实现可重复和负责任的大规模研究
- 发布内容
- 发布参数范围内的所有模型
- 模型日志
- 代码库metaseq,该代码库允许在992个80G A100 GPU上训练OPT-175B,每个GPU利用率达到147 TFLOP/s。
模型架构展示
层数L,注意力头数量H,嵌入大小dmodel,峰值学习率LR,全局batch
实验方法
训练步骤
- 使用megatron-lm代码库中的相同设置进行权重初始化
- 使用0均值和0.006的正态分布
- 输出层的标准差按照
缩放,L为层数
- 所有偏置初始为0
- activation=‘relu’ and seq-len=2048
- AdamW优化器,(β1,β2)设置为(0.9,0.95),重量衰减为0.1。
- 我们遵循线性学习率时间表,在OPT-175B中的前2000个步骤中从0升温到最大学习率,或在我们的较小baseline中超过375M个token,并在超过300B个token的情况下衰减到最大LR的10%。后续还要对LR进行一些更改。
- 我们的批量大小从0.5M到4M不等,具体取决于型号大小,并且在整个训练过程中保持不变。
- dropout=0.1,gradient norms = 1.0,并在梯度溢出和下溢时除以根号N,N为world-size。
预训练语料
- Roberta
- BookCorpus
- Stories子集
- CCNews
- The Pile
- CommonCrawl
- DM Mathematics、
- Project Gutenberg、
- HackerNews、
- OpenSubtitles、
- OpenWebText2、
- USPTO
- 维基百科。
- PushShift.io Reddit
- PushShift.io语料库的一个子集
中使用的数据集串联
通过MinhashLSH过滤掉Jaccard相似度≥0.95的文档,删除了所有数据集中的重复文档。我们发现Pile中充满很多了重复文件,并建议未来的研究人员使用Pile进行额外的重复数据消除处理。使用GPT-2字节级BPE标记器对所有语料库进行标记我们的最终语料库包含大约180B个token。
训练过程
在这里,我们描述了OPT-175B预训练期间出现的重要训练过程调整
- 硬件故障
- 损失分歧
- 当损失出现分歧时,我们发现降低学习率并从早期检查点重新开始可以让工作恢复并继续训练。我们注意到损失发散、我们的动态损失标量崩溃到0和最终层尖峰激活的L2范数之间的相关性。
- 这些观察结果使我们选择了我们的动态损失标量仍处于“健康”状态(≥1.0)的重启点,之后我们的激活规范将呈下降趋势,而不是无限增长。我们的经验LR时间表如下图所示。
- 经验LR时间表。我们发现,降低学习率有助于避免不稳定。
- 该图为训练迭代方面的验证损失,我们在mid-flight途中的LR变化对验证困惑产生了明显的影响。
- 其他变更
- 切换到vanilla-SGD(优化很快趋于平稳,我们恢复到AdamW);
- 重置动态损失标量(这有助于恢复一些但不是所有的发散);
- 并切换到新版本的megatron(这降低了激活规范的压力并提高了吞吐量)
评估
各种评估指标和结果详情见https://arxiv.org/pdf/2205.01068.pdf
局限性
特别是,我们发现OPT-175B不能很好地与声明性指令或直接询问配合使用。 未来的教学工作,以instruct- GPT的形式,可能会缓解这些限制。
OPT-175B也往往是重复的,很容易陷入循环。虽然采样可以降低重复行为的发生率但我们发现,当只对一代人进行采样时,它并没有完全消除重复行为。未来的工作可能希望结合更现代的策略来减少重复和提高多样性.
与其他LLM类似,OPT-175B可能会产生事实上不正确的陈述。最近,一些研究报告称,检索增强模型可以提高LLM的事实正确性,我们相信OPT-175B也将受益于未来迭代中的检索增强。
即使提供了相对无害的提示,我们还发现OPT-175B具有产生toxic语言和强化有害刻板印象的高倾向,这方面有大量的缓解工作,未来有望采用。
总结
在本技术报告中,我们介绍了OPT,这是一组大小从125M到175B参数的自回归语言模型。我们的目标是复制GPT-3类模型的性能和规模,同时在数据管理和训练效率方面应用最新的最佳实践。
我们描述了训练细节,评估了在一些NLP和对话环境中的表现,并描述了在偏见、毒性和仇恨言论方面的行为。我们还描述了模型的许多其他限制,并讨论了负责任地发布模型的一系列考虑因素。
我们相信,整个人工智能社区将受益于共同制定负责任LLM的指导方针,我们希望广泛使用这些类型的模型将增加定义此类技术伦理考虑因素的声音的多样性。