vllm部署QwQ32B(满精度)

vllm部署QwQ32B(满精度)

  • Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性,而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。

    vllm的github地址

    https://github.com/vllm-project/vllm

  • QwQ32B硬件要求

    Q4_K_M量化,大概需要22G左右够用,一张3090或者4090即可,魔改2080ti 的 22G 显存差不多够用

    硬件配置模型推理模型高效微调模型全量微调
    显存占用最低配置显存占用最低配置显存占用最低配置
    FP_1664GRTX3090*4(94G)92GRTX3090*4(94G)350GA100*6(480G)
    Q_4_K_M23GRTX3090(24G)31GRTX3090*2(48G)
  • 这里使用vllm部署的是满精度下的,显存占用64G,一张A100/A800,或者一张H100/H800,或者三张3090/4090

  • QwQ32G最大支持128K的上下文,但是在128K上下文,需要的显存是150G左右,大概两张A100/A800,或者两张H100/H800,或者7张3090/4090

  • 这里我用的是4张3090

下载QwQ32B模型

  • 可以使用huggingface或者ModelScope下载,注意不要下成Q4_K_M版本的,这里我用的modelscope下载

  • 假设当前目录为

    /root/lanyun-tmp

    创建文件夹统一存放Modelscope下载的模型

    mkdir Model-Scope
    

    安装 modelscope

    pip install modelscope --index https://pypi.mirrors.ustc.edu.cn/simple
    
  • 执行下载模型的命令,下载 Qwen/QwQ-32B (下载较慢)

    https://modelscope.cn/models/Qwen/QwQ-32B

    复制全名

    Qwen/QwQ-32B

    modelscope download --model Qwen/QwQ-32B --local_dir /root/lanyun-tmp/Model-Scope/QwQ-32B
    
    1. modelscope download:ModelScope 命令行工具的下载命令,用于从 ModelScope 平台下载指定的模型。

    2. --model Qwen/QwQ-32B

      --model 参数指定要下载的模型的唯一标识符(Model ID)。

      Qwen/QwQ-32B 模型的 ID,

    3. --local_dir /root/lanyun-tmp/Model-Scope/Qwen/QwQ-32B

      --local_dir 参数指定模型下载后存放的本地目录路径。

      /root/lanyun-tmp/Model-Scope/Qwen/QwQ-32B 是目标目录路径,表示模型将被下载到这个目录中。

  • 查看

    cd /root/lanyun-tmp/Model-Scope/QwQ-32B
    ll -h
    

    image-20250316232117059


安装vllm

  • 使用conda创建虚拟环境

    conda create --name llm python=3.10 -y
    
    conda activate llm
    
  • 下载vllm(指定源,否则极慢)

    pip install llm -i https://pypi.tuna.tsinghua.edu.cn/simple
    

    image-20250316222945013

vllm启动QwQ32B

32k上下文

  • 切到刚下载完成QwQ32B目录下

    cd /root/lanyun-tmp/Model-Scope/
    
  • 启动QwQ32b

    CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve ./QwQ-32B --tensor-parallel-size 4 --port 8081 --max-model-len 32768
    
    1. CUDA_VISIBLE_DEVICES=0,1,2,3, :指定使用的 GPU 设备为第1-4张卡。
    2. vllm serve:启动一个 HTTP 服务器,用于接收和处理推理请求。
    3. ./QwQ-32B :指定要加载的模型路径。
    4. –tensor-parallel-size 4 : 设置张量并行的大小。4表示使用 4 个 GPU 进行张量并行计算。
    5. –port 8081:指定HTTP服务监听的端口号。

    连接代码

    from openai import OpenAI
    import openai
    
    openai.api_key = '1111111' # 这里随便填一个
    openai.base_url = 'http://127.0.0.1:8081/v1'
    
    
    def get_completion(prompt, model="QwQ-32B"):
        client = OpenAI(api_key=openai.api_key,
                        base_url=openai.base_url
                        )
        messages = [{"role": "user", "content": prompt}]
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            stream=False
        )
        return response.choices[0].message.content
    	
    prompt = '你好,请幽默的介绍下你自己,不少于300子'
    response = get_completion(prompt, model="./QwQ-32B")
    print("response:\n",response)
    
    

    image-20250319091425044

    image-20250319091749355

    大概35.4tokens/s


128k上下文

  • 无需指定–max-model-len

  • 切到刚下载完成QwQ32B目录下

    cd /root/lanyun-tmp/Model-Scope/
    
  • 启动QwQ32B

    CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 vllm serve ./QwQ-32B --tensor-parallel-size 8 --port 8081
    
    1. CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 :指定使用的 GPU 设备为第1-8张卡。
    2. vllm serve:启动一个 HTTP 服务器,用于接收和处理推理请求。
    3. ./QwQ-32B :指定要加载的模型路径。
    4. –tensor-parallel-size 8 : 设置张量并行的大小。8 表示使用 8 个 GPU 进行张量并行计算。
    5. –port 8081:指定HTTP服务监听的端口号。

    image-20250324202622834

    image-20250324202640484

    image-20250324202658474

    大概32tokens/s

<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型的推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的问题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出问题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的问题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的问题包括模型路径错误、显存不足、tokenizer配置问题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装与配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>问题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值