目录
一、vLLM 介绍
vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。
二、安装 vLLM
2.1 使用 GPU 进行安装
vLLM 是一个Python库,同时也包含预编译的C++和CUDA(12.1版本)二进制文件。
1. 安装条件:
- OS: Linux
- Python: 3.8 – 3.11
- GPU: compute capability 7.0 or higher (e.g., V100, T4, RTX20xx, A100, L4, H100, etc.)
2.使用 pip 安装:
# 使用conda创建python虚拟环境(可选)
conda create -n vllm python=3.11 -y
conda activate vllm# Install vLLM with CUDA 12.1.
pip install vllm
2.2 使用CPU进行安装
vLLM 也支持在 x86 CPU 平台上进行基本的模型推理和服务,支持的数据类型包括 FP32 和 BF16。
1.安装要求:
- OS: Linux
- Compiler: gcc/g++>=12.3.0 (recommended)
- Instruction set architecture (ISA) require