深入了解使用 NVIDIA NIM 优化的新 AI 模型

人工智能时代准备好了吗

于 2024-09-12 20:06:27 发布

阅读量572

点赞数 11

文章标签：人工智能

本文链接：https://blog.csdn.net/ertfafrtrtrtyr/article/details/142184604

版权

NVIDIA NIM 微服务作为优化容器提供，旨在加速各种规模的企业的 AI 应用开发，为 AI 技术的快速生产和部署铺平道路。这些微服务集可用于在语音 AI、数据检索、数字生物学、数字人、模拟和大型语言模型（LLMs）中构建和部署 AI 解决方案。

每个月，NVIDIA 都致力于为各行业和领域的领先 AI 模型提供 NIM 微服务。本文将为您介绍新增的最新功能。

语音和翻译 NIM 微服务

用于语音和翻译的最新 NIM 微服务使组织能够将先进的多语种语音和翻译功能集成到其全球对话式应用中。这些功能包括自动语音识别（ASR）、文本转语音（TTS）和神经网络机器翻译（NMT），满足各种行业需求。

Parakeet ASR

Parakeet ASR-CTC-1.1 B-EnUS ASR 模型拥有 11 亿个参数，提供创纪录的英语转录功能。它提供出色的准确性和鲁棒性，熟练地处理各种语音模式和噪音级别。它使企业能够改进基于语音的服务，确保卓越的用户体验。

FastPitch-HiFiGAN TTS

作为 TTS NIM，FastPitch-HiFiGAN-EN 集成了 FastPitch 和 HiFiGAN 模型，可从文本中生成高保真音频。它使企业能够创建自然的声音，提高用户参与度并提供沉浸式体验，在音频质量方面树立新的标杆。

Megatron NMT

Megatron 1B-En32 是一个功能强大的 NMT 模型，擅长跨多种语言进行实时翻译，促进无缝的多语言交流。它使组织能够扩展其全球影响力，吸引多样化的受众，并促进高效的国际合作。

通过利用这些先进的语音和翻译 NIM 微服务，企业可以彻底改变其对话式 AI 应用。从创建多语言智能个人助理和品牌大使到开发全球客户服务平台，企业可以在不同的语言和环境中创新和增强用户体验。

检索 NIM 微服务

最新的 NVIDIA NeMo Retriever NIM 微服务帮助开发者高效获取最佳专有数据，为其 AI 应用生成知识性响应。NeMo Retriever 使组织能够将自定义模型无缝连接到各种业务数据，并使用检索增强生成（RAG）为 AI 应用提供高度准确的响应。

嵌入 QA E5

NVIDIA NeMo Retriever QA E5 嵌入模型针对文本问答检索进行了优化。嵌入模型是文本检索系统的重要组件，因为它将文本信息转换为密集向量表示。它们通常是 Transformer 解码器，处理输入文本（例如，问题、段落）的标记以输出嵌入。

嵌入 QA Mistral 7B

NVIDIA NeMo Retriever QA Mistral 7B 嵌入模型是一种热门的多语言社区基础模型，经过文本嵌入微调，以实现高精度问答。该嵌入模型非常适合希望利用最新的密集检索技术在大型文本语料库上构建问答应用程序的用户。

借助 NeMo Retriever QA Mistral 7B NIM，开发者可以将吞吐量提高 2 倍。

Snowflake Arctic Embed

Snowflake Arctic Embed 是一套用于高质量检索的文本嵌入模型，并针对性能进行了优化。这些模型可免费用于商业用途。Arctic Embed 模型的每个尺寸变体都在 MTEB/BEIR 排行榜上获得了先进的性能。

Reranking QA Mistral 4B

NVIDIA NeMo Retriever QA Mistral 4B Reranking 模型经过优化，可以提供 logit 分数，以表示文档与给定查询的相关性。该排名模型是文本检索系统中用于提高整体准确性的关键组件。文本检索系统通常使用嵌入模型（密集）或词法搜索（稀疏）索引来返回给定输入的相关文本段落。

排名模型可用于将潜在候选对象重新排名为最终顺序。排名模型接收问题通道对作为输入，因此可以处理单词之间的交叉注意力。在知识库中的所有文档上应用排名模型是不现实的，因此排名模型通常与嵌入模型一起部署。

借助 NeMo Retriever QA Mistral 4B 重新排名的 NIM，开发者可以将吞吐量提高到 1.75 倍。

数字生物学 NIM 微服务

在医疗健康和生命科学领域，NVIDIA NIM 微服务正在改变数字生物学。这些先进的 AI 工具赋予制药公司、生物技术和医疗健康机构加速创新和为患者提供挽救生命的药物的能力。

MoIMIM

MolMIM 是一种基于 Transformer 的模型，用于生成受控的小分子。它可以优化和采样潜在空间中的分子，从而提高所需评分函数的值。这包括来自其他模型的功能以及基于对各种化学和生物属性的实验数据测试的功能。MolMIM NIM 微服务基于强大的推理引擎构建，可以在云端或本地部署，以便在计算药物研发工作流程中进行企业级推理，包括虚拟筛选、领先优化和其他实验室在环方法。

DiffDock

NVIDIA DiffDock NIM 微服务专为企业规模的高性能、可扩展分子对接而构建。它需要蛋白质和分子 3D 结构作为输入，但不需要任何关于结合袋的信息。在生成式 AI 模型和加速的 3D 等变图神经网络的驱动下，与已发布的基准模型相比，每秒可预测多达 7 倍的姿势，从而降低了计算药物研发工作流程的成本，包括虚拟筛选和潜在客户优化。

这些数字生物学 NIM 微服务使制药公司能够简化其药物研发计算工作流程，从而可能以更低的研发成本更快地提供挽救生命的治疗方法。

LLM NIM 微服务

LLM 仍然是 AI 创新的基石。适用于 LLM 的新 NVIDIA NIM 微服务可在各种应用和语言中提供出色的性能和准确性。

Llama 3.1 8B 和 70B

Llama 3.1 8B 和 70B 模型提供尖端的文本生成和语言理解功能，可以作为强大的工具，用于创建引人入胜的信息内容。在 NVIDIA H100 数据中心 GPU 上部署 Llama 3.1 8B NIM 时，与部署无 NIM 的模型相比，开发者可以实现开箱即用的性能提升，每秒内容生成速度高达 2.5 倍。

Bar chart showing the comparison of tokens used for the Mixtral 8x22B Llama 3.1 8B model with and without NIM. Without NIM, the performance output is 2,679 tokens per second. With NIM, the output is improved by 2.5x, and results in a performance output of 6,372 tokens per second.

图 1.Llama 3.1 8B NIM 显示翻译吞吐量有所提高

Llama3.1 8B 指令，1 x H100 SXM；输入和输出令牌长度为 1000。并发客户端请求为 200。启用 NIM：BF16，TTFT 小于 1s，ITL 小于 30ms。禁用 NIM：BF16，TTFT 小于 4s，ITL 小于 65ms

Llama 3.1 405B

Llama 3.1 405B 是当前最大的公开可用模型，能够应用于多种用例。一个关键用例是合成数据生成，帮助企业提高模型性能并扩展其数据集。现在，Llama 3.1 405B NIM 微服务可以从 NVIDIA API 目录的任何地方下载和运行。

仿真 NIM 微服务

新的 NVIDIA USD NIM 微服务能够利用生成式 AI Copilots 和代理开发 Universal Scene Description (OpenUSD) 工具，从而加速 3D 世界的创建。

以下微服务现在可用于预览:

USD Code

USD Code 是一种先进的语言模型（LLM），可以回答 OpenUSD 知识查询并生成 USD-Python 代码。

USD Search

USD Search 使用基于文本或图像的输入，为 OpenUSD 数据、3D 模型、图像和资产提供 AI 驱动的搜索。

USD Validate

USD Validate 支持通过即时 RTX 渲染和基于规则的验证，验证 OpenUSD 资产的兼容性。

借助这些新的 USD NIM 微服务，更多行业将能够开发用于工业设计和工程项目可视化的应用程序，或模拟环境以构建下一波物理 AI 和机器人。

视频会议 NIM 微服务

NVIDIA Maxine 简化了 AI 功能的部署，为视频会议和远程呈现增强音频、视频和增强现实效果。

Maxine Audio2Face-2D

Maxine Audio2Face-2D 现已在 API 目录中提供，可仅使用语音音频实时对 2D 图像进行动画处理。语音信号会被解释为肖像照片中相应的面部动画，以生成 H.264 压缩输出视频。它还支持头部姿态动画以实现自然传递，并且可以与聊天机器人输出或翻译的语音结合使用。常见的用例是虚拟代理。您可以立即通过 API 目录开始使用 Audio2Face-2D 进行原型设计。

眼神交流

眼神交流在建立社交联系方面发挥着关键作用，而在面对面的对话中，眼神交流意味着自信、联系和注意力。为了改善、增强和提高用户体验，NVIDIA 开发了 NVIDIA Maxine Eye Contact NIM 微服务。此功能使用人工智能对用户的网络摄像头源实时应用滤镜，并将目光重定向到摄像头。

加速 AI 应用程序开发

NVIDIA NIM 通过跨领域的专用微服务集成，简化了复杂 AI 应用的创建。使用 NIM 微服务，组织可以绕过从头开始构建 AI 模型的复杂性，节省时间和资源。这使团队能够专注于将这些预训练模型集成到工作流程中，从而加速业务运营的转型。NIM 微服务的模块化特性允许组装满足特定业务需求的定制 AI 解决方案，以满足特定的商业需求。

例如，公司可以将 ACE NIM 微服务（包括语音识别）与 LLM NIM 微服务相结合，以创建数字人，为医疗健康、金融和零售等行业提供个性化客户服务。

NIM 微服务还可以集成到供应链管理系统中，将用于路由优化的 cuOpt NIM 微服务与用于检索增强生成（RAG）的 NeMo Retriever NIM 微服务以及 LLM NIM 微服务相结合，以便企业可以与其供应链进行通信。