vllm部署QwQ32B(Q4_K_M)

vllm部署QwQ32B(Q4_K_M)

  • Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性,而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。

    vllm的github地址

    https://github.com/vllm-project/vllm

  • QwQ32B硬件要求

    Q4_K_M量化,大概需要22G左右够用,一张3090或者4090即可,魔改2080ti 的 22G 显存差不多够用

    硬件配置模型推理模型高效微调模型全量微调
    显存占用最低配置显存占用最低配置显存占用最低配置
    FP_1664GRTX3090*4(94G)92GRTX3090*4(94G)350GA100*6(480G)
    Q_4_K_M23GRTX3090(24G)31GRTX3090*2(48G)
  • 这里使用vllm部署的是Q4_K_M量化,显存占用22G,需要至少一张3090/4090

  • 这里我用的是1张4090

下载QwQ32B模型Q_4_K_MM)

  • 可以使用huggingface或者ModelScope下载,注意不要下成Q4_K_M版本的,这里我用的modelscope下载

  • 假设当前目录为

    /root/lanyun-tmp

    安装 modelscope

    pip install modelscope --index https://pypi.mirrors.ustc.edu.cn/simple
    
  • 执行下载模型的命令,下载 Qwen/QwQ-32B (下载较慢)

    https://modelscope.cn/models/Qwen/QwQ-32B-GGUF

    复制全名

    Qwen/QwQ-32B-GGUF

    模型文件下,复制qwq-32b-q4_k_m.gguf 单独下载

    modelscope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./QwQ-32B-GGUF
    
  • 查看

    cd /root/lanyun-tmp/QwQ-32B-GGUF
    ll -h
    

    image-20250317225827771


安装vllm

  • 使用conda创建虚拟环境

    conda create --name vllm python=3.10 -y
    
    conda activate vllm
    
  • 下载vllm(指定源,否则极慢)

    pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
    

vllm启动QwQ32B

  • 切到刚下载完成QwQ32B目录下

    cd  /root/lanyun-tmp/QwQ-32B-GGUF
    
  • 启动QwQ32B

    CUDA_VISIBLE_DEVICES=0 vllm serve ./qwq-32b-q4_k_m.gguf  --max-model-len 4000 --port 8081
    
    1. CUDA_VISIBLE_DEVICES=0 :指定使用的 GPU 设备为第1张卡。

    2. vllm serve:启动一个 HTTP 服务器,用于接收和处理推理请求。

    3. ./qwq-32b-q4_k_m.gguf :指定要加载的模型路径。

    4. –max-model-len : 设置最大上下文长度。这里24G显存最多只能设置为5000左右,否则就会报错cuda oom。

    5. –port 8081:指定HTTP服务监听的端口号。

      image-20250317230926319

  • 显存占用:22G左右

    image-20250317232656255


连接使用

  • 代码

    from openai import OpenAI
    import openai
    
    openai.api_key = '1111111' # 这里随便填一个
    openai.base_url = 'http://127.0.0.1:8081/v1'
    
    
    def get_completion(prompt, model="QwQ-32B"):
        client = OpenAI(api_key=openai.api_key,
                        base_url=openai.base_url
                        )
        messages = [{"role": "user", "content": prompt}]
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            stream=False
        )
        return response.choices[0].message.content
    	
    prompt = '你好,请幽默的介绍下你自己,不少于300子'
    get_completion(prompt, model="./qwq-32b-q4_k_m.gguf")
    

    image-20250317232804945

  • 速度大概在39 tokens/s

    image-20250317232933035


<think>好的,我现在需要帮助用户解决如何使用vLLM运行QwQ-32B模型的问题。首先,我需要确认用户提到的模型名称是否正确。用户写的是“qwq-32b”,但根据提供的引用,正确的模型名称应该是Qwen2.5-Coder-32B-Instruct,可能用户有拼写错误或者简称。所以需要先指出这一点,避免用户下载错误的模型。 接下来,用户提到使用vLLM来运行这个模型。根据引用[1]中的信息,QwQ-32B的量化版本可能需要特定的配置,比如4bit量化,模型大小约20G。而引用[2]提供了通过ModelScope下载模型的命令,所以需要指导用户正确下载模型到本地目录。 然后,我需要考虑用户的环境配置。vLLM需要特定的依赖,比如PyTorch和CUDA,因此需要确保用户安装了正确版本的这些库。同时,使用conda创建虚拟环境是一个好习惯,可以避免依赖冲突。用户可能需要安装modelscope来下载模型,这部分在引用[2]中已经给出,但需要整合到步骤中。 另外,用户可能不清楚如何编写vLLM的推理代码,所以需要提供一个简单的示例,包括如何加载模型、初始化LLM引擎、生成提示和获取输出。同时,需要注意模型路径是否正确,是否使用了正确的参数,比如tensor_parallel_size如果使用多GPU的话。 还需要提醒用户可能的注意事项,比如硬件要求。虽然引用[1]提到消费级显卡,但32B模型即使量化后可能需要较大的显存,比如20G左右,所以用户需要确保显卡有足够的显存,比如RTX 3090/4090或A10/A100等。 最后,生成相关问题,帮助用户进一步了解模型部署的优化方法和可能的问题。比如如何优化性能,处理内存不足的情况,以及量化相关的知识。 现在需要将这些思考整理成结构化的步骤,确保用户能够逐步跟随操作,同时引用正确的参考资料,避免误导。同时,检查所有命令和代码是否正确,特别是模型名称和路径部分,确保用户不会因为拼写错误而遇到问题。</think>以下是在本地使用vLLM运行Qwen2.5-Coder-32B-Instruct模型的详细步骤(注意正确模型名称为Qwen而非qwq): ### 步骤1:环境准备 ```bash # 创建conda环境(需要提前安装Anaconda/Miniconda) conda create -n vllm_env python=3.10 -y conda activate vllm_env # 安装基础依赖 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121 pip install vllm>=0.4.2 pip install modelscope ``` ### 步骤2:下载模型 ```bash # 使用modelscope下载(国内推荐) modelscope download --model 'Qwen/Qwen2.5-Coder-32B-Instruct' \ --local_dir '/path/to/save/model' # 替换为实际存储路径 ``` ### 步骤3:编写推理代码 创建`inference.py`文件: ```python from vllm import LLM, SamplingParams # 初始化模型(根据显存情况选择量化配置) llm = LLM( model="/path/to/save/model", # 替换为实际模型路径 quantization="awq", # 使用AWQ量化[^1] tensor_parallel_size=1 # 单GPU设置为1 ) # 配置生成参数 sampling_params = SamplingParams( temperature=0.7, top_p=0.9, max_tokens=512 ) # 执行推理 prompts = ["用Python实现快速排序算法"] outputs = llm.generate(prompts, sampling_params) # 输出结果 for output in outputs: print("生成结果:\n", output.outputs[0].text) ``` ### 步骤4:运行脚本 ```bash python inference.py ``` ### 注意事项 1. 显存需求:量化后约需20GB显存,建议使用RTX 3090/4090或A10/A100显卡 2. 模型路径:确保本地路径包含`config.json`等模型配置文件 3. 量化选择:支持awq/gptq等量化方式,显存不足时可尝试`dtype="half"`
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值