4个顶级的大模型推理引擎

最新推荐文章于 2025-03-08 11:30:03 发布

新缸中之脑

最新推荐文章于 2025-03-08 11:30:03 发布

阅读量3.2k

点赞数 31

文章标签：大模型

本文链接：https://blog.csdn.net/shebao3333/article/details/142678580

版权

LLM 在文本生成应用中表现出色，例如具有高理解度和流畅度的聊天和代码完成模型。然而，它们的庞大规模也给推理带来了挑战。基本推理速度很慢，因为 LLM 会逐个生成文本标记，需要对每个下一个标记进行重复调用。随着输入序列的增长，处理时间也会增加。此外，LLM 有数十亿个参数，很难在内存中存储和管理所有这些权重。

为了优化 LLM 推理和服务，有多个框架和软件包，在本博客中，我将使用和比较以下推理引擎：TensorRT-LLM、vLLM、LMDeploy 和 MLC-LLM。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、TensorRT-LLM

TensorRT-LLM 是另一个推理引擎，可加速和优化 NVIDIA GPU 上最新 LLM 的推理性能。 LLM 被编译到 TensorRT Engine 中，然后与 triton 服务器一起部署，以利用推理优化，例如 In-Flight Batching（减少等待时间并允许更高的 GPU 利用率）、分页 KV 缓存、MultiGPU-MultiNode 推理和 FP8 支持。

我们将比较 HF 模型、TensorRT 模型和 TensorRT-INT8 模型（量化）的执行时间、ROUGE 分数、延迟和吞吐量。

你需要为你的 Linux 系统安装 Nvidia-container-toolkit，初始化 Git LFS（以下载 HF 模型），并下载必要的软件包，如下所示：

!curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyring

最低0.47元/天解锁文章