QwQ-32B大模型本地部署全攻略：推理能力爆表，消费级GPU也能轻松玩转！

数据与算法架构提升之路

已于 2025-03-13 12:43:30 修改

阅读量1.7k

点赞数 13

分类专栏： # 大模型文章标签：大模型千问

于 2025-03-13 12:39:06 首次发布

本文链接：https://blog.csdn.net/lzhcoder/article/details/146223613

版权

QwQ-32B是一个强大的大语言模型，展示了令人印象深刻的推理能力。本指南将引导您通过vLLM在本地机器上部署和使用QwQ-32B，创建简单的API服务器，并构建Web界面进行交互。

QwQ-32B简介

QwQ-32B是来自Qwen的一个320亿参数的推理模型，擅长复杂问题求解。根据原始材料中的用户反馈，它在以下方面表现出色：

数学推理
玩井字棋等游戏
利用推理能力解决复杂问题
生成具有真实物理模拟的代码

可以看到在官方放出的评测图中， QwQ-32B 与满血版 DeepSeek R1（671B）在五项基准测试的得分不相上下，更是远超同尺寸 R1 蒸馏模型

环境搭建

在开始之前，让我们设置环境。本指南假设您使用的是配备一张4090 GPU的AutoDL实例。

# 基础环境
# Ubuntu 22.04
# Python 3.12
# CUDA 12.1
# PyTorch 2.3.0

# 设置pip并安装依赖
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install modelscope==1.22.3
pip install openai==1.61.0
pip install tqdm==4.67.1
pip install transformers==4.48.2
pip install vllm==0.7.1
pip install streamlit==1.41.1

实测下来，QwQ-32B-AWQ 量化版本显存占用不到 18GB ，一张 4090 绰绰有余。而 32B 的 QwQ，也是完美适配消费级硬件

下载模型（4位量化版本）

我们将使用ModelScope下载4位量化模型，以便在消费级GPU上高效推理：

# model_download.py
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/QwQ-32B-AWQ', cache_dir='/root/autodl-tmp', revision='master')

运行下载脚本：