【大语言模型加速实战】使用vLLM加速Qwen2-7B模型推理-CSDN博客

本文链接：https://blog.csdn.net/weixin_42733484/article/details/142899814

文章目录

一、什么是vLLM？
二、环境配置
三、加载LLM
- 3.1 git安装
- 3.2 模型下载
四、模型部署及推理
- 4.1 模型部署
- 4.2 模型推理
参考文献

一、什么是vLLM？

vLLM是一种应用于大语言模型（Large Language Model, LLM）的推理和服务引擎，具有高吞吐量、内存高效的特点。

vLLM库：https://github.com/vllm-project/vllm
最新文档：https://docs.vllm.ai/en/latest/
论文：https://arxiv.org/pdf/2309.06180

本文以Qwen2-7B为例，使用vLLM加速LLM推理过程。

二、环境配置

2.1 配置要求

值得注意的是，vLLM目前只支持Linux操作系统。具体的配置要求如下所示：

OS: Linux
Python: 3.8 – 3.12
GPU: 算力不小于7.0 (如：V100, T4, RTX20xx, A100, L4, H100等)
*算力查询：https://developer.nvidia.com/cuda-gpus

本文采用适用于Linux的Windows子系统（Windows Subsystem for Linux, WSL）部署vLLM、Qwen2-7B，其中Ubuntu版本为24.04.1 LTS。
*WSL安装教程：https://blog.csdn.net/wangtcCSDN/article/details/137950545

2.2 Miniconda安装

安装Miniconda包管理工具，结果如图1所示：

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh