vllm-gptq 项目安装和配置指南

武骥岳Travis

于 2024-09-13 22:33:04 发布

阅读量246

点赞数 2

本文链接：https://blog.csdn.net/gitblog_07774/article/details/142233214

版权

vllm-gptq 是一个基于 vLLM 的高吞吐量和内存高效的推理和服务引擎，专门为大型语言模型（LLMs）设计。该项目的主要目的是支持 Qwen 系列大语言模型的 GPTQ 量化推理。通过量化技术，可以在保持模型性能的同时，显著减少内存占用和提高推理速度。

该项目主要使用 Python 编程语言进行开发和维护。

在开始安装之前，请确保您的系统满足以下要求：

首先，从 GitHub 克隆 vllm-gptq 项目仓库到本地：

git clone https://github.com/QwenLM/vllm-gptq.git
cd vllm-gptq

为了隔离项目依赖，建议创建一个虚拟环境：

python -m venv vllm-gptq-env
source vllm-gptq-env/bin/activate  # 在 Windows 上使用 `vllm-gptq-env\Scripts\activate`

安装项目所需的依赖包：

pip install -r requirements.txt
pip install -r requirements-dev.txt  # 如果需要开发环境

如果您使用的是 CUDA 12.1 和 PyTorch 2.1，可以直接通过以下命令安装 vLLM：

pip install -e .

如果使用其他版本的 CUDA 和 PyTorch，可能需要手动安装对应版本的 CUDA 和 PyTorch，然后删除 requirements.txt 中的 torch 依赖，并删除 pyproject.toml，再尝试执行 pip install -e .。

安装完成后，可以通过运行示例代码来验证安装是否成功。示例代码位于 tests/qwen/ 目录下。

cd tests/qwen/
python example_script.py

通过以上步骤，您应该能够成功安装和配置 vllm-gptq 项目，并开始使用其提供的量化推理功能。

关注