低延迟、高吞吐，LLM优化与高效推理引擎综述

zenRRan

于 2025-05-07 15:18:52 发布

阅读量466

点赞数 7

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/147835687

版权

LLM每次回答都要进行复杂的计算，尤其是需要多次调用模型的场景（比如连续推理、多轮对话），成本高得离谱。

关键矛盾：用户希望响应快（低延迟），企业想省钱（高吞吐）。
典型场景：
- 思维链推理（Chain-of-Thought）：模型需要反复自我验证才能给出答案
- AI助理（如AutoGPT）：自动规划任务流程时频繁调用模型

论文：A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
链接：https://arxiv.org/pdf/2505.01658

推理流程与评估指标

推理流程与评估指标

推理引擎

工程师们开发了各种优化技术，核心目标是「用更少的资源，做更多的事」：

动态批处理（Dynamic Batching）

原理：把多个用户的请求像拼车一样合并处理
效果：GPU利用率提升30%+
代表作：vLLM的「连续批处理」技术

动态批处理与传统批处理的对比图

动态批处理与传统批处理的对比图

KV缓存（Key-Value Cache）

痛点：每次生成新token都要重复计算之前的上下文
解决方案：把中间结果（K和V矩阵）存起来复用
进阶玩法：
- 分页缓存（PagedAttention）：像内存管理一样避免碎片化
- 量化缓存：用4比特存储代替16比特，内存占用直降75%

KV缓存工作原理示意图

KV缓存工作原理示意图

模型量化（Quantization）

核心思想：把模型参数从「高精度浮点数」转为「低精度整数」
公式示例：
量化公式：
反量化：
其中是缩放因子，是零点偏移
实战效果：4比特量化让70B模型能在单张显卡运行

支持不同数据类型的推理引擎对比表

支持不同数据类型的推理引擎对比表

25款推理引擎

论文对比了开源和商业引擎的六大维度：通用性、易部署性、速度优化等：

开源模型

vLLM：谷歌TPU/英伟达GPU通吃，吞吐量王者
llama.cpp：纯CPU也能跑，MacBook本地部署神器
TensorRT-LLM：英伟达亲儿子，核弹级CUDA优化

商业黑马

GroqCloud：自研LPU芯片，延迟低至毫秒级
Fireworks AI：支持AMD显卡，性价比杀手

雷达图对比各引擎特性

雷达图对比各引擎特性

推理引擎的「进化方向」

多模态支持

现状：现有引擎主要优化文本，处理图像/视频力不从心
突破点：开发跨模态的注意力机制（如M-RoPE）

手机端推理

挑战：如何在内存有限的手机运行百亿参数模型？
前沿方案：
- PowerInfer：按需激活神经元，iPhone也能跑大模型
- MLC LLM：用编译器自动适配不同硬件

新型架构支持

Mamba：抛弃传统Transformer，用状态空间模型实现线性复杂度
Jamba：混合Mamba+Transformer，兼顾效率和性能

Mamba架构与传统Transformer的对比图

Mamba架构与传统Transformer的对比图

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。