新服务通过热门 AI 模型为数百万开发者带来高达 5 倍的 token 效率提升,使他们能够立即访问在 NVIDIA DGX Cloud 上运行的 NIM 微服务。
目录
不仅限于 Token 层面的提升 — NVIDIA NIM 带来巨大优势
全球最大人工智能社区之一 Hugging Face 平台上的 400 万开发者在一些最热门的 AI 模型上可轻松获得 NVIDIA 加速推理。
借助新的推理即服务能力,开发者将能够快速部署 Llama 3 系列和 Mistral AI 模型等领先的大语言模型,并使用运行在 NVIDIA DGX Cloud 上的 NVIDIA NIM 微服务进行优化。
这项服务于今日在 SIGGRAPH 大会上发布,它将帮助开发者利用托管在 Hugging Face Hub 上的开源 AI 模型快速建立原型并将其部署在生产中。Enterprise Hub 用户可以利用 NVIDIA NIM 进行无服务器推理,以提高灵活性,尽可能降低基础设施用度并优化性能。
推理服务补充了在 DGX Cloud 端的训练(Train on DGX Cloud),一种已在 Hugging Face 上提供的 AI 训练服务。
由于开发者面对着越来越多的开源模型,可供其轻松比较各种选项的资源中心会非常有帮助。这些训练和推理工具为 Hugging Face 开发者提供了在 NVIDIA 加速基础设施上试验、测试和部署先进模型的新方法。它们可以通过 Hugging Face 模型卡上的“训练”和“部署”下拉菜单轻松访问,用户只需点击几下就能轻松使用这些功能。
不仅限于 Token 层面的提升 — NVIDIA NIM 带来巨大优势
NVIDIA NIM 是一系列 AI 微服务(包括 NVIDIA AI 基础模型和开源社区模型)的集合,而且已使用行业标准应用编程接口 (API) 针对推理进行了优化。
NIM 为用户带来更高的 token 处理效率 — token 是语言模型使用和生成的数据单位。经优化的微服务还能改善底层 NVIDIA DGX Cloud 基础架构的效率,从而提高关键 AI 应用的速度。
这意味着,与模型的其他版本相比,开发者可以通过访问 NIM AI 模型,更快、更可靠地得到结果。例如,与 NVIDIA Tensor Core GPU 驱动系统上的现成部署相比,通过 NIM 访问 Llama 3 的 700 亿参数版本时,可实现最高达 5 倍的吞吐量提升。
近乎即时的 DGX Cloud 访问让 AI 加速触手可及
NVIDIA DGX Cloud 平台专为生成式 AI 打造,为开发者提供轻松访问可靠加速计算基础设施的途径,帮助他们更快地将生产就绪型应用推向市场。
该平台提供可扩展的 GPU 资源,可为从原型设计到生产的每一步 AI 开发提供支持,同时无需开发者做出长期的 AI 基础设施承诺。
借助由 NIM 微服务提供支持、在 NVIDIA DGX Cloud 上运行的 Hugging Face 推理即服务,用户可轻松访问针对 AI 部署进行优化的计算资源,在企业级环境中实验最新的 AI 模型。