先看老师给的资料:
NVIDIA NIM是 NVIDIA AI Enterprise 的一部分,是一套易于使用的预构建容器工具,目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能的 AI 模型推理。这些预构建的容器支持从开源社区模型到 NVIDIA AI 基础模型,以及定制的 AI 模型的广泛范围。NIM 可通过单个命令部署,使用标准 API 和几行代码轻松集成到企业级 AI 应用程序中。基于 Triton 推理服务器、TensorRT、TensorRT-LLM 和 PyTorch等强大的推理引擎构建,NIM 旨在促进大规模的无缝 AI 推理,确保你可以在任何地方自信地部署 AI 应用。无论是在本地还是在云端,NIM 都是实现大规模加速生成式 AI 推理的更快方式。
优势:
性能与规模:
• 通过低延迟、高吞吐量且可随云扩展的 AI 推理来提高总体拥有成本 —— Llama 3.1 8B NIM 与直接在 GPU 上部署相比,可实现高达 2.8 倍的更高吞吐量。
• 通过开箱即用的对微调模型的支持实现更佳的准确性。