文章目录
一、什么是vLLM?
vLLM是一种应用于大语言模型(Large Language Model, LLM)的推理和服务引擎,具有高吞吐量、内存高效的特点。
- vLLM库:https://github.com/vllm-project/vllm
- 最新文档:https://docs.vllm.ai/en/latest/
- 论文:https://arxiv.org/pdf/2309.06180
本文以Qwen2-7B为例,使用vLLM加速LLM推理过程。
二、环境配置
2.1 配置要求
值得注意的是,vLLM目前只支持Linux操作系统。具体的配置要求如下所示:
- OS: Linux
- Python: 3.8 – 3.12
- GPU: 算力不小于7.0 (如:V100, T4, RTX20xx, A100, L4, H100等)
*算力查询:https://developer.nvidia.com/cuda-gpus
本文采用适用于Linux的Windows子系统(Windows Subsystem for Linux, WSL)部署vLLM、Qwen2-7B,其中Ubuntu版本为24.04.1 LTS。
*WSL安装教程:https://blog.csdn.net/wangtcCSDN/article/details/137950545
2.2 Miniconda安装
安装Miniconda包管理工具,结果如图1所示:
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh
激活Miniconda:
~/miniconda3/bin/conda init bash