英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

AI小白熊

已于 2024-08-23 11:52:04 修改

阅读量619

点赞数 20

文章标签：人工智能 ai 大模型自然语言处理语言模型

于 2024-08-16 14:48:41 首次发布

本文链接：https://blog.csdn.net/2401_85325726/article/details/141259704

版权

全球AI领导者英伟达（Nvidia）开源了最新大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。

据悉这两个模型是基于Meta开源的Llama-3.1 8B，但英伟达使用了两种高效的训练方法结构化剪枝和知识蒸馏。

相比从头训练，每个额外模型所需的训练token数据更少，仅需大约1000亿token，最多减少40倍，算力成本可节省1.8倍。性能却依然媲美Llama-3.1 8B、Mistral 7B、Gemma 7B等知名模型，而这些模型是在高达15万亿token数据训练而成。

4B开源地址：https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base

8B开源地址：https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base

结构化剪枝方法

剪枝作为一种大模型压缩技术，其核心思想是去除神经网络中不重要的权重。在大模型中，每个神经元通过一系列权重与其他神经元相连，这些权重决定了信号在网络中的传递强度。通过移除那些对模型输出影响较小的权重，从而减少模型的复杂性和计算需求。

传统的剪枝方法是随机或根据特定策略移除权重矩阵中的单个元素。虽然这种方法能有效减小模型的体积，但对硬件的利用效率不高，因为它破坏了权重矩阵的结构，难以充分利用现代硬件的并行计算优势。

所以，英伟达使用了一种结构化剪枝方法，保留了权重矩阵的结构，通过移除整个神经元、注意力头或卷积滤波器等，使得剪枝后的模型仍然适合在GPU、TPU等硬件上高效运行。这不仅降低模型的内存占用和计算需求，还可能提升模型的训练速度和推理时间，使得大模型可以在有限的资源环境中进行部署。

在实际应用中，剪枝策略的选择依赖于模型的具体结构和优化目标。例如，剪枝神经元意味着减小神经网络层的宽度，剪枝注意力头则影响模型对输入序列的理解方式，而剪枝模型的深度则直接减少模型的层数。

英伟达的研究人员在剪枝的过程中发现，在不同的剪枝轴上，比如宽度和深度，采用不同的策略会产生不同的效果。

初期单独剪枝神经元和注意力头比同时剪枝神经元、注意力头和嵌入通道更有效，但经过几次迭代的重新训练后，这种顺序可能会发生变化。而宽度剪枝在重新训练后通常比深度剪枝有更好的效果。

知识蒸馏

使用剪枝后的模型通常需要一个重新训练的阶段以恢复和优化性能，知识蒸馏便是最佳方法之一。

其原理非常简单，就是让剪枝后的“学生模型”来模仿未剪枝的“教师模型”的行为，可以在使用极少量原始训练数据的情况下，显著提升剪枝模型的表现。

尤其是，当大模型的深度被大幅减少时，使用logit、中间状态和嵌入的蒸馏策略更为有效；而当深度变化不大时，仅使用logit蒸馏就足够了。

英伟达在训练Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B时，使用的便是基于logit的知识蒸馏方法，让学生模型的输出概率分布模仿教师模型，从而学习到教师模型对数据的深层理解。

作为softmax层之前的输出，logits代表了模型对每个词汇的原始预测分数。通过最小化学生模型和教师模型logits之间的差异，学生模型能够学习到教师模型的软概率分布，而不仅仅是最终的预测结果，这增加了学生模型泛化能力的信息量。

除了logits层面的蒸馏，英伟达还探索了中间层特征的蒸馏，通过将教师模型的隐藏层状态映射到学生模型，并最小化这些状态之间的差异，进一步提高了学生模型的性能。这种方法使学生模型能够学习到教师模型在不同层次上的表示能力，更好地捕捉数据的复杂特征。

在损失函数的选择上，尝试了多种损失函数，包括Kullback-Leibler散度、均方误差和余弦相似度等。他们发现，对于深度减少的学生模型，使用logits损失和中间层损失的组合可以取得更好的效果。

根据测试数据显示，经过结构化剪枝和知识蒸馏的Minitron-4B和Minitron-8B模型，与从头训练模型相比训练数据减少了40倍，算力需求节省1.8倍，在MMLU上的评分提升16%，性能可媲美Mistral 7B、Gemma 7B和Llama-3 8B。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。