vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架

彬彬侠

于 2025-04-21 13:06:20 发布

阅读量1.3k

点赞数 11

分类专栏：大模型文章标签： vLLM 高性能推理 PagedAttention python 大模型

本文链接：https://blog.csdn.net/u013172930/article/details/147387658

版权

大模型专栏收录该内容

98 篇文章

订阅专栏

vLLM（Virtual Large Language Model）是一个开源的高性能推理和服务的框架，专为大语言模型（LLM）设计，旨在优化推理速度、内存效率和吞吐量。它通过创新的内存管理和调度技术（如PagedAttention）解决了传统LLM推理中的内存瓶颈和性能问题，广泛应用于对话系统、文本生成、实时翻译等场景。以下是对vLLM框架的详细介绍，包括其核心特性、工作原理、架构、优势、局限性以及使用方式。

1. vLLM 框架概述

vLLM 由加州大学伯克利分校 Sky Computing Lab 开发，现已成为社区驱动的开源项目，得到学术界和工业界的广泛支持。它通过高效的内存管理和优化的推理流程，显著提升了LLM的推理性能，适用于生产环境中的高并发和长序列任务。

核心目标：
- 提高推理吞吐量（最高可达 Hugging Face Transformers 的 24 倍）。
- 降低内存占用，减少 GPU 资源浪费。
- 提供简单易用的接口，支持多种模型和硬件。
- 兼容 OpenAI API，方便集成到现有工作流中。
适用场景：
- 实时对话系统（如聊天机器人）。
- 长文档生成（如文章、代码补全）。
- 高并发推理服务（如云端 API 服务）。
- 多模态任务（支持文本、图像、音频等输入，vLLM V1 特性）。

2. 核心技术与特性

vLLM 的性能优势主要来源于以下核心技术：

2.1 PagedAttention

PagedAttention 是 vLLM 的核心创新，灵感来源于操作系统的虚拟内存分页机制，用于优化 KV Cache（键值缓存）的管理：

原理：将 KV Cache 分割为固定大小的页面（Page），存储在非连续的内存块中，通过块表（Block Table）动态映射逻辑内存到物理内存。
优势：
- 减少内存碎片：传统 KV Cache 需要连续内存分配，容易产生碎片。PagedAttention 通过分页避免了外部碎片，并将内部碎片降至 4% 以下（传统系统浪费 60%-80%）。
- 动态扩展：支持序列长度动态增长，无需预分配大块内存。
- 内存共享：在并行采样或束搜索（Beam Search）中，相同前缀的序列可以共享页面，提升内存利用率。
实现：每个页面存储若干 token 的键和值，块表记录页面编号，内存池管理页面分配和释放。

2.2 连续批处理（Continuous Batching）

原理：传统推理系统使用固定批次大小，请求需等待整个批次完成。vLLM 通过连续批处理动态调度请求，允许新请求在旧请求完成时立即加入批次，减少 GPU 空闲时间。
优势：
- 提高吞吐量，特别是在高并发场景下。
- 适应动态负载，适合实时应用。
示例：在聊天机器人中，vLLM 可以同时处理不同长度的用户请求，最大化 GPU 利用率。

2.3 优化后的 CUDA 内核

原理：vLLM 集成了高效的 CUDA 内核（如 FlashAttention 和 FlashInfer），优化注意力机制的计算。
优势：
- 加速矩阵运算，减少计算瓶颈。
- 支持多种解码算法（如并行采样、束搜索）。
效果：与传统框架相比，vLLM 在长序列和复杂解码任务中性能提升 2-4 倍。

2.4 其他关键特性

多 GPU 支持：通过张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism），vLLM 能在多 GPU 环境下高效分布计算。
多模态支持：vLLM V1 支持文本、图像、音频、视频输入，适用于文档解析、图像描述等任务。
量化支持：支持 FP8、INT8 等量化技术，降低内存需求，同时保持模型精度。
OpenAI 兼容 API：与 OpenAI API 兼容，开发者可无缝迁移现有应用。
LoRA 适配器：支持高效微调（如 LoRA 和 QLoRA），无需重新训练整个模型。

3. vLLM 架构

vLLM 的架构设计模块化且易于扩展，核心组件包括：

3.1 LLMEngine 和 AsyncLLMEngine

LLMEngine：核心推理引擎，负责处理输入、执行模型推理、调度请求和生成输出。
AsyncLLMEngine：异步包装器，基于 asyncio，支持在线服务场景下的部分，处理并发请求并流式传输输出。用于 OpenAI 兼容 API 服务器。

3.2 Worker

每个 GPU 分配一个 Worker 进程，负责 GPU 相关的任务（如加载模型权重、管理 KV Cache）。主进程中的 Driver Worker 协调其他 Worker。

3.3 Cache Engine

每个 Worker 拥有独立的 Cache Engine，管理 GPU 上的 KV Cache 存储，最大化批次大小（占用 GPU 内存减去模型权重和中间激活后的剩余部分）。

3.4 Scheduler

动态决定每一步执行预填充（Prefill，处理提示词）或解码（Decode，生成下一 token），基于请求优先级（例如优先处理被换出的请求）。

3.5 API 和接口

Python 接口：LLM 类用于离线推理，简单易用。
CLI 和 API 服务器：支持命令行接口和 OpenAI 兼容的 REST API，方便部署和查询。

3.6 配置管理

使用 VllmConfig 类封装所有配置，支持深度层次的类结构，易于扩展新功能。

4. vLLM 的优势

高吞吐量：
- 相比 Hugging Face Transformers 高 8.5-24 倍，相比 TGI 高 2.2-3.5 倍（测试于 LLaMA-7B 和 LLaMA-13B）。
- 在 Chatbot Arena 和 Vicuna Demo 中，vLLM 支持 5 倍流量增长。
内存效率：
- PagedAttention 减少内存浪费，支持更大批次和更长序列。
- 解决传统框架的内存囤积问题，避免预分配过多内存。
易用性：
- 与 Hugging Face 模型无缝集成，支持 LLaMA、Mistral、Qwen 等主流模型。
- 提供 Docker、Kubernetes 等部署选项，简化生产环境搭建。
灵活性：
- 支持多模态、多硬件（NVIDIA、AMD、Intel、TPU 等），适应不同场景。
- 开源（Apache 2.0 许可证），支持社区定制和快速修复。
可扩展性：
- 支持从 7B 到 70B 模型的快速切换，仅需少量配置调整。
- 通过 MonsterAPI 等服务提供即用型部署，降低开发难度。

5. vLLM 的局限性

复杂性：
- PagedAttention 和连续批处理的实现增加了代码复杂性，调试和维护成本较高。
硬件依赖：
- 最佳性能依赖高性能 GPU（如 NVIDIA A100），在低端硬件上性能提升有限。
部分功能优化未完成（vLLM V1）：
- LoRA 和多模态输入的性能尚未完全优化。
- 某些模型（如编码-解码模型、Mamba 模型）暂不支持。
内存管理开销：
- 块表和页面池的管理增加少量计算和存储开销，特别是在高并发场景下。
学习曲线：
- 对于新手，配置和优化 vLLM（如页面大小、批次策略）需要一定经验。

6. 使用 vLLM

以下是快速上手 vLLM 的步骤，基于官方文档。

6.1 安装

使用 pip 或 uv 安装 vLLM：

pip install vllm
# 或使用 uv
uv venv myenv --python 3.12
source myenv/bin/activate
uv pip install vllm

6.2 离线推理示例

使用 Python 接口进行文本生成：

from vllm import LLM, SamplingParams

# 初始化模型
llm = LLM(model="meta-llama/Llama-2-7b-hf")
prompts = ["Hello, my name is", "The capital of France is"]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=50)

# 生成输出
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    print(f"Prompt: {output.prompt}, Generated: {output.outputs[0].text}")

6.3 启动服务器

启动 OpenAI 兼容的 API 服务器：

vllm serve meta-llama/Llama-2-7b-hf --port 8000

通过 curl 查询：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-2-7b-hf",
    "prompt": "San Francisco is a",
    "max_tokens": 7,
    "temperature": 0
  }'

6.4 Docker 部署

使用官方 Docker 镜像：

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 \
  --env "HUGGING_FACE_HUB_TOKEN=<your_token>" \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-2-7b-hf

7. vLLM V1 更新

vLLM V1（2025 年 1 月发布）对核心架构进行了重大升级，重点改进包括：

性能提升：在长上下文场景下吞吐量提高 1.7 倍。
模块化设计：简化代码结构，降低 CPU 开销，易于扩展。
新功能：
- 支持多模态输入（文本、图像、音频、视频）。
- 改进的分块预填充（Chunked Prefill），降低长请求的延迟。
废弃功能：
- 移除 GPU-CPU KV Cache 交换，简化架构。
- 部分功能（如每请求 Logits 处理器）被全局处理器替代。

8. 与其他框架的对比

特性	vLLM	Hugging Face Transformers	TGI (Text Generation Inference)
吞吐量	高（8.5-24x HF，2.2-3.5x TGI）	低	中等
内存效率	高（PagedAttention）	低	中等
连续批处理	支持	不支持	支持
多模态支持	是（V1）	有限	有限
部署复杂性	中等	低	中等
OpenAI API 兼容	是	否	是

9. 应用案例

Chatbot Arena：vLLM 支持 Vicuna 模型，处理数百万用户请求，吞吐量提升 30 倍。
企业部署：Thoughtworks 使用 vLLM 在 NVIDIA DGX 和 Intel HPC 上部署 LLaMA 和 Mistral 模型，支持代码助手和知识搜索。
云服务：MonsterAPI 利用 vLLM 提供即用型 LLM 部署，简化开发流程。