vllm-gptq 项目安装和配置指南
1. 项目基础介绍和主要编程语言
项目基础介绍
vllm-gptq
是一个基于 vLLM 的高吞吐量和内存高效的推理和服务引擎,专门为大型语言模型(LLMs)设计。该项目的主要目的是支持 Qwen 系列大语言模型的 GPTQ 量化推理。通过量化技术,可以在保持模型性能的同时,显著减少内存占用和提高推理速度。
主要编程语言
该项目主要使用 Python 编程语言进行开发和维护。
2. 项目使用的关键技术和框架
关键技术
- GPTQ 量化:支持 GPTQ int4 量化模型,减少模型大小和推理时间。
- vLLM 引擎:基于 vLLM 的高吞吐量和内存高效的推理引擎。
框架
- PyTorch:用于深度学习模型的训练和推理。
- CUDA:用于 GPU 加速的计算。
3. 项目安装和配置的准备工作和详细安装步骤
准备工作
在开始安装之前,请确保您的系统满足以下要求:
- Python 版本:>= 3.7
- CUDA 版本:11.8 或 12.1
- PyTorch 版本:>= 2.0
详细安装步骤
步骤 1:克隆项目仓库
首先,从 GitHub 克隆 vllm-gptq
项目仓库到本地:
git clone https://github.com/QwenLM/vllm-gptq.git
cd vllm-gptq
步骤 2:创建虚拟环境(可选)
为了隔离项目依赖,建议创建一个虚拟环境:
python -m venv vllm-gptq-env
source vllm-gptq-env/bin/activate # 在 Windows 上使用 `vllm-gptq-env\Scripts\activate`
步骤 3:安装依赖
安装项目所需的依赖包:
pip install -r requirements.txt
pip install -r requirements-dev.txt # 如果需要开发环境
步骤 4:安装 vLLM
如果您使用的是 CUDA 12.1 和 PyTorch 2.1,可以直接通过以下命令安装 vLLM:
pip install -e .
如果使用其他版本的 CUDA 和 PyTorch,可能需要手动安装对应版本的 CUDA 和 PyTorch,然后删除 requirements.txt
中的 torch
依赖,并删除 pyproject.toml
,再尝试执行 pip install -e .
。
步骤 5:验证安装
安装完成后,可以通过运行示例代码来验证安装是否成功。示例代码位于 tests/qwen/
目录下。
cd tests/qwen/
python example_script.py
注意事项
- 当前项目仅支持 Int4 量化模型,Int8 量化模型将在后续版本中支持。
- 如果遇到任何安装问题,请参考项目的 GitHub 仓库中的
README.md
文件或提交 Issue。
通过以上步骤,您应该能够成功安装和配置 vllm-gptq
项目,并开始使用其提供的量化推理功能。