Nemotron-4 15B Technical Report-CSDN博客

本文链接：https://blog.csdn.net/liferecords/article/details/136346222

Nemotron-415B是一个训练在8万亿文本标记上的150亿参数模型，表现出色，尤其在多语言任务上超越同类规模的开放模型。它使用Transformer架构和多种优化技术，预训练和继续训练策略使其在多语言和编码任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#Nemotron-4 15B #Large Language Model #Multilingual #Transformer #Machine Learning

摘要： Nemotron-4 15B 是一个训练在8万亿文本标记上的150亿参数的大型多语言语言模型。在英语、多语言和编码任务上表现出色，超越了所有类似规模的开放模型，并在剩余领域与领先开放模型具有竞争力。特别是，Nemotron-4 15B 在多语言能力上表现最佳，甚至超过了规模大四倍以上的模型和专门针对多语言任务的模型。

主要方法/架构： Nemotron-4 使用标准的仅解码器Transformer架构，具有因果注意力掩码。关键的超参数如表1所示。模型使用了Rotary Position Embeddings (RoPE)、SentencePiece分词器、MLP层中的平方ReLU激活函数、无偏项、0的dropout，以及未绑定的输入输出嵌入。为了更快的推理和更低的内存占用，使用了Grouped Query Attention (GQA)。

数据： Nemotron-4 15B 在一个包含8万亿标记的预训练数据集上训练。数据集分为三类：英语自然语言数据（70%）、多语言自然语言数据（15%）和源代码数据（15%）。在构建预训练语料库时，通过文档级别的精确和近重复去重，并应用了一系列启发式过滤器。

预训练： 使用384个DGX H100节点进行训练，每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。训练使用了8路张量并行和数据并行，并在数据并行副本上分片优化器状态。训练大约在13天内完成。

继续训练： 在模型训练结束时，通过改变数据分布和学习率衰减计划来提高模型质量。在继续训练阶段，使用了两种不同的数据分布。

实验对比数据结果： 以下是Nemotron-4 15B在不同评估领域的对比结果，使用Markdown表格格式展示：

任务类别	模型	SIQA	ARC-c	ARC-e	PIQA	Winogrande	Hellaswag	AVG
常识推理	LLaMA-2 13B	50.3	49.4	77.3	79.8	72.8	80.7	68.4
	QWEN 14B	77.9	84.4	90.3	79.9	80.2	-	-
	Mistral 7B	47.0*	55.5	80.0	83.0	75.3	81.3	70.4
	Gemma 7B	51.8	53.2	81.5	81.2	72.3	81.2	70.2
	Nemotron-4 15B	60.9	55.5	80.9	82.4	78.0	82.4	73.4