一文带你了解8 种 LLM 推理部署方案【建议收藏】

AGI大模型资料分享员

于 2025-05-10 11:12:52 发布

阅读量940

点赞数 29

文章标签：搜索引擎自然语言处理开源语言模型人工智能大模型 LLM

本文链接：https://blog.csdn.net/m0_48891301/article/details/147849342

版权

本文主要概述了一些主流的机器学习模型部署和推理服务，并总结了它们的关键特性。以下是一些值得重点考虑的要点：
1. Triton Inference Server：作为一个功能强大的平台，Triton Inference Server 可用于在生产环境中对机器学习模型进行部署和扩展。不过，设置 Triton Inference Server 的过程可能较为复杂。

2. 文本生成推理：要求原生支持 HuggingFace，并且不计划为核心模型使用多个适配器。

3. vLLM：需要以最大速度批量传递提示。

4. DeepSpeed-MII：用户具有使用 DeepSpeed 库的经验，期望继续借助该库来部署大型语言模型。

5. OpenLLM：希望将适配器连接到核心模型，并且利用 HuggingFace Agents，尤其是在不完全依赖 PyTorch 的情况下。

6. MLC LLM：适用于在客户端（如 Android 或 iPhone 等平台）上本地部署大型语言模型的场景。

7. Ray Serve：具备稳定的管道和灵活的部署方式，最适合应用于较为成熟的项目中。

8. CTranslate2：当速度是关键因素，且计划在 CPU 上运行推理任务时，CTranslate2 是一个不错的选择。

1、Triton 推理服务

Triton 是一个强大的平台，用于在生产环境中部署和扩展机器学习模型。设置 Triton 推理服务可能是一个复杂的过程。

Triton 支持从多个深度学习和机器学习框架部署任何 AI 模型，包括 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL 等。Triton 推理服务支持在 NVIDIA GPU、x86 和 ARM CPU 或 AWS Inferentia 上进行云、数据中心、边缘和嵌入式设备的推理。Triton的关键特性:

支持各种深度学习框架
同时执行
动态调度和批处理
后端可扩展性
模型集成
各种指标

2、TGI 文本生成推理

文本生成推理（简称 TGI）是一个由 HuggingFace 创建的 Rust、Python、gRPC 模型服务器，可用于托管特定的大型语言模型。文本生成推理适合部署基于 NLP 的大型语言模型，如 Falcon、LLaMA、T5 等。文本生成推理的关键特性:

张量并行化
优化的Transformers代码
量化
加速权重加载
Logits扭曲
自定义提示生成
微调支持

3、 vLLM：通用大型语言模型

vLLM 是一个高性能库，旨在用于大型语言模型的推理和服务。它以其出色的服务吞吐量、使用分页注意力进行高效内存管理，以及灵活地服务各种 Hugging Face 模型而闻名。vLLM 的关键特性:

高吞吐量
分页注意力（Paged Attention）
连续批处理
优化的 CUDA 内核
解码算法
张量并行
流式输出

4、 DeepSpeed MII

DeepSpeed Model 实现用于推理(MII)旨在使强大模型的低延迟、低成本推理不仅可行，而且也易于访问。

DeepSpeed MII 的关键特性:

用于 Transformers 的 DeepFusion
多 GPU 推理与张量切片
通过 ZeroQuant 进行 INT8 推理
用于资源受限系统的 ZeRO 推理
编译器优化

5、OpenLLM

使用 OpenLLM，您可以对任何开源大型语言模型进行推理，将它们部署在云或本地，并构建强大的 AI 应用程序。OpenLLM 的关键特性:

最先进的大型语言模型
灵活的 API
自由构建
简化部署
自带大型语言模型
量化
流式传输
连续批处理

6、 MLC LLM

大型语言模型的机器学习编译(MLC LLM)是一种高性能的通用部署解决方案，允许在各种硬件后端(包括 CPU 和 GPU)以及本机应用程序上部署任何大型语言模型。MLC LLM的关键特性:

通用部署
平台本地运行时
内存优化

7、 Ray Serve

Ray Serve 是一个可扩展的模型服务库，用于构建在线推理 API。Serve 与框架无关，因此您可以使用单一工具包来服务从深度学习模型到传统 ML 模型的所有内容。Ray Serve的关键特性:

批量推理
多模型训练
跨多个副本自动扩展
监控仪表板和 Prometheus 指标

8、 CTranslate2

CTranslate2 是一个 C++ 和 Python库，用于高效地对 Transformer 模型进行推理。CTranslate2 的关键特性:

在 CPU 和 GPU 上快速高效地执行
动态内存使用
支持多个 CPU 架构

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】