NVIDIA Nemo——用于构建和部署生成式 AI 模型的端到端云原生框架

上期回顾:https://blog.csdn.net/Xsuperzone/article/details/139837605?spm=1001.2014.3001.5501

本期我们将介绍 NVIDIA AI Enterprise 中的一个重要工具套件——NVIDIA NeMo。它是一个端到端云原生框架,无论是在本地还是在云上,用户可以灵活地构建、定制和部署生成式 AI 模型。

它包含但不限于预训练模型数据管护工具模型对齐工具训练和推理框架检索增强工具护栏工具包(如下图示意),为用户使用生成式 AI 提供了一种既方便、又经济的方法。

图片

图片来源于NVIDIA

此外 NeMo 框架还包含对一些流行的多模态模型的支持,包括 Stable Diffusion、Vision Transformer 等,不过当前仍处于开发使用的早期阶段,后续我们也将继续深入介绍上述大语言模型和多模态模型。

本文我们将具体介绍 NVIDIA NeMo 框架及其所包含的组件工具。

NeMo 框架组件

图片

1. 模型⽀持

Multimodal (MM) Language Models:

  • NeVA (LLaVA)

  • Kosmos-2

Large Language Models (LLMs):

  • GPT-style models (decoder only)

  • T5/BART/UL2-style models (encoder-decoder)

  • BERT-style models (encoder only)

  • RETRO model (decoder only)

Speech Processing:

  • Jasper

  • QuartzNet

  • Citrinet

  • ContextNet

  • Conformer-CTC

  • etc.

Text To Speech (TTS):

  • FastPitch

  • Mixer-TTS/Mixer-TTS-X

  • RAD-TTS

  • Tacotron2

  • SSL FastPitch

  • etc.

Vision models:

  • Vision Transformer (ViT)

  • AutoencoderKL (VAE with KL loss)

2. NeMo Curator 

⼀个 Python 库,由⼀系列可扩展的数据挖掘模块组成,⽤于整理⾃然语⾔处理(NLP)数据以训练⼤型语⾔模型(LLM)。NeMo Data Curator 中的模块可帮助 NLP 研究⼈员从未经整理的海量⽹络语料库中⼤规模挖掘⾼质量⽂本。

  • 可配置的数据下载和⽂本提取

  • 通过 ftfy (fixes text for you) 进⾏⽂本重新格式化和清理

  • 质量过滤

  • ⽂件级重复数据删除

3. NeMo Aligner 

⼀套可扩展的⼯具包,⽤于⾼效的模型对⻬。该⼯具包⽀持最先进的模型对⻬算法,如SteerLM,DPO 和 RLHF。这些算法使⽤户能够将语⾔模型对⻬得更安全、⽆害和有益。⽤户可以在各种模型⼤⼩上进⾏端到端的模型对⻬,并利⽤并⾏技术来确保以⾼性能和资源⾼效的⽅式完成模型对⻬。

  • 使⽤RLHF模型对⻬

  • 使⽤SteerLM模型对⻬

  • 使⽤DPO模型对⻬

4. 训练框架和⼯具

以下⼯具库都集成在 NVIDIA NGC 官⽅容器:

NeMo Launcher,⼜称为 NeMo-Megatron-Launcher: 简化 NeMo Framework 的使⽤,提供了⼀个⽤户友好型界⾯,可有效管理和组织各种环境下的实验。NeMo Launcher 基于 Hydra 框架(详情可点击:高度适配于 OpenUSD 的渲染框架——Hydra),使⽤户能够使⽤配置⽂件和命令⾏参数轻松组成和调整分层配置。

NeMo AutoConfigurator: 为⼤型语⾔模型(LLM)的训练和推理搜索吞吐量最⾼的超参数(Hyper-Parameters),⽬标是为了快速迭代不同的模型配置,以最少的时间和代价找到最佳配置。

NeMo Megatron core,代码仓库: 是NVIDIA Applied Deep Learning Research团队开发的⼀款功能强⼤的transformer,⽀持⾼效的、模型并⾏(张量、序列和流⽔线)和多节点预训练的基于 transformer 的模型,如使⽤混合精度的 GPT、BERT 和 T5。

>> ⽀持并⾏技术

  • Data Parallelism

  • Fully Sharded Data Parallelism (FSDP)

  • Tensor Parallelism

  • Pipeline Parallelism

  • Sequence Parallelism

  • Expert Parallelism

  • Context Parallelism

>> 内存节约技术

  • Selective Activation Recompute (SAR)

  • CPU offloading (Activation, Weights)

  • Attention: Flash Attention (FA), Grouped Query Attention (GQA), Multi-Query Attention(MQA), Sliding Window Attention (SWA)

5. NeMo Retriever

是⽤于构建、定制和部署⽣成式⼈⼯智能模型的框架和⼯具 NVIDIA NeMo 系列中的⼀款新产品,其在 NVIDIA NeMo 中以微服务的形式存在,可帮助企业利⽤企业级检索增强⽣成(RAG) 功能增强其⽣成式⼈⼯智能应⽤。

6. NeMo Guardrails

⼀个开源⼯具包,为基于 LLM 的对话应⽤程序添加可编程的保护栏。Guardrails(简称 “rails”)是控制⼤型语⾔模型输出的特定⽅式,例如不谈论政治、以特定⽅式响应特定⽤户请求、遵循预定义对话路径、使⽤特定语⾔⻛格、提取结构化数据等。

7. 推理框架和⼯具

  • Triton Inference Server: 是⼀个开源的推理服务软件,⽤于简化AI模型的部署和推理过程,并提供⾼性能的推理服务。

  • TensorRT / TensorRT-LLM:是针对⼤型语⾔模型构建最优化的TensorRT 引擎,以在 NVIDIA GPU 上⾼效执⾏推理。TensorRT-LLM包含⽤于创建执⾏这些 TensorRT 引擎的 Python 和 C++ 运⾏时的组件,还包括与 NVIDIA Triton 推理服务器集成的后端,⽤于提供⼤模型服务的⽣产级系统。

下期预告

下期我们将使⽤ NVIDIA NeMo 框架实践 TTS 的训练和推理应⽤,特别是频谱模型和⾳频合成器模型的训练和微调,感兴趣的小伙伴欢迎关注我,及时接收文章更新!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值