Nemotron-4 15B Technical Report

#Nemotron-4 15B #Large Language Model #Multilingual #Transformer #Machine Learning

摘要: Nemotron-4 15B 是一个训练在8万亿文本标记上的150亿参数的大型多语言语言模型。在英语、多语言和编码任务上表现出色,超越了所有类似规模的开放模型,并在剩余领域与领先开放模型具有竞争力。特别是,Nemotron-4 15B 在多语言能力上表现最佳,甚至超过了规模大四倍以上的模型和专门针对多语言任务的模型。

主要方法/架构: Nemotron-4 使用标准的仅解码器Transformer架构,具有因果注意力掩码。关键的超参数如表1所示。模型使用了Rotary Position Embeddings (RoPE)、SentencePiece分词器、MLP层中的平方ReLU激活函数、无偏项、0的dropout,以及未绑定的输入输出嵌入。为了更快的推理和更低的内存占用,使用了Grouped Query Attention (GQA)。

数据: Nemotron-4 15B 在一个包含8万亿标记的预训练数据集上训练。数据集分为三类:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。在构建预训练语料库时,通过文档级别的精确和近重复去重,并应用了一系列启发式过滤器。

预训练: 使用384个DGX H100节点进行训练,每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。训练使用了8路张量并行和数据并行,并在数据并行副本上分片优化器状态。训练大约在13天内完成。

继续训练: 在模型训练结束时,通过改变数据分布和学习率衰减计划来提高模型质量。在继续训练阶段,使用了两种不同的数据分布。

实验对比数据结果: 以下是Nemotron-4 15B在不同评估领域的对比结果,使用Markdown表格格式展示:

任务类别模型SIQAARC-cARC-ePIQAWinograndeHellaswagAVG
常识推理LLaMA-2 13B50.349.477.379.872.880.768.4
QWEN 14B77.984.490.379.980.2--
Mistral 7B47.0*55.580.083.075.381.370.4
Gemma 7B51.853.281.581.272.381.270.2
Nemotron-4 15B60.955.580.982.478.082.473.4

*注:带有星号的值是从Gemma Team (2024)的报告中读取的。

结论: Nemotron-4 15B展示了在多语言能力上的卓越表现,即使在多语言任务上也超越了专门为此目的训练的模型。这表明大型语言模型可以在比以前估计的更多的标记上进行预训练,并取得卓越的结果。

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值