AI前沿 | NVIDIA发布开放的多样化数据生成for LLMs

Jude_lennon

已于 2024-06-18 10:30:28 修改

阅读量1.2k

点赞数 45

分类专栏： ai前沿文章标签：人工智能

于 2024-06-18 10:18:16 首次发布

本文链接：https://blog.csdn.net/Jude_ye/article/details/139761227

版权

ai前沿专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文链接：nvda.ws/4cnGPZp

论文：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

Hugging Face 下载：https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911

数据集地址：https://huggingface.co/datasets/nvidia/HelpSteer2

简介

于2024年6月14日发布的名为Nemotron-4 340B模型，用于解决训练大语言模型时所需要的数据问题。高质量的训练数据对LLM响应的性能、准确度和质量至关重要，但常常难以获取。因此该模型致力于生成大量可用于训练LLM的合成数据。

该模型目前开源，因此可以用该模型进行训练数据的生成，从而帮助构建更强大的LLM，应用于医药、金融等各垂直领域。

Nemotron-4 340B系列包括基础（base）、指导（instruct）和奖励（reward）模型，这些模型相互作用耦合，共同组成了生成合成数据模型。 Nemotron可以与NeMo配合使用。 NeMo时一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。此外，还通过开源NVIDIA TensorRT LLM库进行了推理优化。

结构-导航Nemotron生成合成数据-生成合成数据的过程

Nemotron-4 340B系列包括基础（base）、指导（instruct）和奖励（reward）模型，这些模型相互作用耦合，共同组成了生成合成数据模型。

Nemotron-4 340B Instruct模型创建了各种模拟真实世界数据特征的合成数据，有助于提高数据质量，从而提高自定义LLM模型在各个领域的性能和稳定性。
为提高人工智能合成数据的质量，使用Nemotron-4 340B Reward模型来过滤高质量的响应。Reward根据五个属性对回应进行评分：乐于助人（helpfuln）、正确性（correctness）、连贯性（coherence）、复杂性（complexity）和冗长性（verbosity）。它目前在AI2创建的Hugging Face RewardBench 排行榜上排名第一，用于评估奖励模型的功能、安全性和陷阱。

如上图，

Nemotron-4 340B Instruct模型首先生成基于合成文本的输出；
Nemotron-4 340B Reward模型评估生成的文本——提供反馈，指导迭代改进，并确保合成数据准确、相关并符合特定要求。

此外，关于 Nemotron-4 340B base模型，可以使用专用数据集以及HelpSteer2数据集定制base模型，进一步创建自己的instruct和reward模型。
为了开发强大的奖励模型，英伟达收集了一个包含 10k 人类偏好数据的数据集，称为 HelpSteer2，并公开发布了这个数据集。

NeMo微调，TensorRT LLM推理优化

Nemotron可以与NeMo配合使用。NeMo是一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。此外，还通过开源NVIDIA TensorRT LLM库进行了推理优化。

使用开源的NeMo和TensorRT LLM，可以对instruct和reward模型进行优化，以生成合成数据并对响应进行评分。
所有的Nemotron-4 340B模型均使用了 TensorRT
LLM进行优化，以利用张量的并行性，这是一种模型并行性，其中单个权重矩阵在多个GPU和服务器上进行拆分，从而实现大规模高效推理。
Nemotron-4 340B的训练基于9亿token，可以使用NeMo框架进行定制，以适应特定的领域。这种微调得益于大量的预训练数据，并为下游任务提供更准确的输出。
NeMo框架提供了多种定制方法，包括监督微调和参数有效微调方法，如低秩自适应或LoRA。
为了提高模型质量，开发人员可以将他们的模型与NeMo Aligner和Nemotron-4 340B Reward注释的数据集对齐。对齐是训练LLM的关键步骤，在LLM中，使用从人类反馈中强化学习（RLHF）等算法对模型的行为进行微调，以确保其输出安全、准确、适合上下文并与其预期目标一致。
为生产环境寻求企业级支持和安全性的企业也可以通过云原生NVIDIA AI enterprise软件平台访问NeMo和TensorRT LLM，该平台为生成的AI基础模型提供加速高效的运行时间。

评估模型安全性和Getting Started

Nemotron-4 340B Instruction模型经过了广泛的安全性评估，包括对抗性测试，在广泛的风险指标上表现良好。
用户仍然应该对模型的输出进行仔细的评估，以确保综合生成的数据适合、安全和准确地用于他们的用例。
有关模型安全性和安全性评估的更多信息，请阅读模型卡。通过NVIDIA NGC和Hugging Face下载Nemotron-4
340B型号。有关更多详细信息，请阅读有关模型和数据集的研究论文。请参阅有关软件产品信息的通知。
Categories: Deep Learning | Generative AI
Tags: Artificial Intelligence | NVIDIA NIM | Synthetic Data Generation | TensorRT