用vllm本地部署qwen3满血版

用vllm本地部署qwen3满血版

作者建议

我将文档发布到了多个平台,不同的平台阅读体验不同,排版也可能有区别,本人强烈建议直接点击下面的链接查看原始文档,因为下面的链接是原始文档,阅读体验极佳,排版美观,有目录结构,您可以很容易找到您想要阅读的章节。另外,文档一直持续更新,不断完善,内容更加准确且与时俱进。原始文档始终是最新版本的,其它平台中的文档可能已经过时了。

单击查看原始文档:《用vllm本地部署qwen3满血版》

原创不易,如果对您有帮助,还请您一键三连[抱拳]

有任何问题都可以联系作者,文末有作者联系方式,欢迎交流。

以下是正文

qwen3介绍

今天(2025年4月29日)凌晨,阿里发布了最新的开源大模型qwen3系列,详细信息可以查看官方的公告https://mp.weixin.qq.com/s/NrS8SR9_FMq5GW-SJQPn8w

qwen3系列最大的特点是它是混合推理模型,Qwen3 引入了**“思考模式”“非思考模式”**,使模型能够在不同场景下表现出最佳性能。在思考模式模式下,模型会进行多步推理和深度分析,类似于人类在解决复杂问题时的“深思熟虑”。(eg:在回答数学题或编写复杂代码时,模型会反复验证逻辑并优化输出结果。)

在非思考模式模式下,模型优先追求响应速度和效率,适用于简单任务或实时交互。(eg:在日常对话或快速问答中,模型会跳过复杂的推理步骤,直接给出答案。)

部署

我是在一台高性能服务器上部署的,有8张H20显卡,内存有2TB,4个固态硬盘,每个固态硬盘可用容量为3.5TB

qwen3发布后,我立马就用vllm部署了,而且是部署参数量最大的模型,有2350亿参数。

命令如下:

vllm serve "Qwen/Qwen3-235B-A22B"

下载了半天才下载好,太大了。

ad2e2f97ea20a35483892c5ed511241.png

GPU使用情况

可以看到8张H20显存基本都吃光了

4cd574fe2ad37dddba8c4efc6a6b373.png

验证

用curl命令调用api与qwen3对话

cd5953f05590f45514295a756c6be5d.png

响应速度挺不错的,每秒49.5个tokens

e9616a66c17ea3d3bacaddb6cd4e647.png

也可以用Powershell与大模型对话

image.png

image.png

关注我们,获取更多IT开发运维实用工具与技巧!

github用户名: iamtornado

github个人首页: https://github.com/iamtornado

电子邮箱: 1426693102@qq.com

个人微信:tornadoami(也可以通过下面的二维码加我,之后我将您邀请进入AI技术交流群)

<think>好的,我现在需要帮助用户解决在本地使用vLLM部署Qwen3-30b-a3b模型的GGUF本的问题。用户之前已经得到了一些步骤,但可能还存在疑问,或者需要更详细的指导。同时,用户提供了三个引用,需要参考这些内容来调整回答。 首先,回顾之前的回答,用户已经知道需要将GGUF转换为Hugging Face格式,因为vLLM主要支持Hugging Face格式。但用户现在引用了新的资料,其中提到可以使用SGLang和vLLM的最新本,可能意味着有更直接的方法。例如,引用2中提到推荐使用vLLM>=0.8.4来创建OpenAI兼容的API端点,这可能说明新本的vLLM可能支持更多格式,或者有更简化的流程。 接下来,用户的问题明确询问如何部署GGUF格式的Qwen3-30b-a3b或者Qwen3模型。之前的步骤中提到了需要转换格式,但根据引用3,官方推荐使用Ollama、LMStudio等工具来本地部署,而用户可能希望用vLLM。但根据引用2,使用vLLM>=0.8.4可能更直接,或者结合其他工具。 需要注意的是,用户可能混淆了GGUF格式和vLLM的兼容性。vLLM本身可能不支持直接加载GGUF,因此可能需要转换步骤。但引用中提到SGLang和vLLM的最新本,可能是否有新的方法?例如,引用1中的SGLANG_USE_MODELSCOPE=1可能是一个环境变量,用于从ModelScope加载模型,而无需本地转换。 但用户的问题核心是vLLM部署GGUF。根据之前的回答和现有知识,vLLM不支持直接加载GGUF,必须转换为Hugging Face格式。但用户提供的引用是否提示有其他方法?比如通过SGLang来配合使用?引用1中的命令使用了SGLang启动服务器,可能这是另一种部署方式,但用户明确想要用vLLM。 因此,可能需要明确告诉用户,虽然官方推荐多种工具,但使用vLLM部署GGUF需要转换。或者,是否有其他方式,比如通过llama.cpp与vLLM结合? 此外,引用3中提到使用Ollama安装Qwen模型,但用户更关注vLLM,所以可能需要强调两种方法的区别,并确认用户的需求。 总结步骤: 1. 确认vLLM不支持直接加载GGUF,必须转换格式,可能需要使用llama.cpp或其他工具转换。 2. 使用最新vLLM(0.8.4+)来支持Qwen3模型3. 提供转换步骤,如使用convert-llama-ggml-to-hf.py脚本。 4. 环境配置,安装依赖项。 5. 模型加载和API服务启动示例。 6. 其他替代方案,如使用SGLang或Ollama,但用户需要vLLM。 需要检查引用中的信息,特别是引用2提到vLLM>=0.8.4,可能是否支持直接加载Qwen3模型,而无需转换?需要验证这一点。例如,如果Hugging Face已经有Qwen3模型,用户可以直接指定模型路径或名称,无需转换GGUF。但GGUF格式可能需要转换。 可能存在的误解是,用户可能有GGUF格式的模型文件,但想用vLLM部署,而vLLM需要Hugging Face格式,因此必须转换。或者,是否有方法让vLLM直接加载GGUF?根据现有知识,目前vLLM不支持GGUF,必须转换。 因此,回答需要分两部分:如果用户有GGUF文件,需要转换;如果可以直接从Hugging Face下载Qwen3的Hugging Face格式,直接使用vLLM部署。 此外,引用中提到使用SGLang的方法,可能作为替代方案,但用户明确要vLLM,所以可能需要提到,但作为备选。 同时,用户可能对性能优化和多GPU配置感兴趣,需要包含这些信息。 最终,回答应结构清晰,步骤明确,引用相关引用中的信息,如使用vLLM>=0.8.4,环境变量设置等,确保用户能正确部署。</think>根据最新技术资料和您的需求,以下是针对本地部署vLLM运行Qwen3-30B-A3B模型的详细指南,包含GGUF格式和标准Hugging Face格式两种方案: ### 一、GGUF格式部署方案(需格式转换) 1. **格式转换准备** - 下载GGUF文件(例如`qwen3-30b-a3b.Q4_K_M.gguf`) - 使用llama.cpp工具转换为Hugging Face格式: ```bash git clone https://github.com/ggerganov/llama.cpp python3 llama.cpp/convert-llama-ggml-to-hf.py \ --input qwen3-30b-a3b.Q4_K_M.gguf \ --output qwen3-30b-a3b-hf \ --model qwen3-30b-a3b ``` 2. **vLLM环境配置** ```bash conda create -n vllm_env python=3.10 conda activate vllm_env pip install "vllm>=0.8.4" transformers==4.40.0 ``` 3. **多GPU加载配置** ```python from vllm import LLM, SamplingParams llm = LLM( model="./qwen3-30b-a3b-hf", tensor_parallel_size=2, # 根据GPU数量调整 quantization="gptq", # 若使用GPTQ量化模型 trust_remote_code=True # 必须启用参数[^2] ) ``` ### 二、原生Hugging Face格式部署 1. **直接加载官方模型** ```python # 使用ModelScope加速下载(需配置环境变量) export SGLANG_USE_MODELSCOPE=1 # [^1] from vllm import LLM llm = LLM( model="Qwen/Qwen3-30B-A3B", download_dir="/path/to/models", dtype="bfloat16" # 推荐精度模式 ) ``` ### 三、OpenAI API兼容服务 ```bash # 启动API服务(需要vLLM>=0.8.4) python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen3-30B-A3B \ --served-model-name qwen3-api \ --port 8000 \ --max-model-len 8192 # 支持长上下文[^2] ``` ### 四、性能优化配置 $$ \text{吞吐量} = \frac{\text{批处理大小}}{\text{单请求延迟}} \times \text{GPU数量} $$ - **推荐参数组合**: ```json { "tensor_parallel_size": 2, "block_size": 32, "swap_space": 16, "gpu_memory_utilization": 0.9 } ``` ### 五、替代方案建议 若遇到显存不足(24G以下显存),可考虑: 1. **使用SGLang部署**(显存需求降低30%): ```bash SGLANG_USE_MODELSCOPE=1 python -m sglang.launch_server \ --model-path Qwen/Qwen3-32B \ --port 30000 \ --reasoning-parser qwen3 # [^1] ``` 2. **混合精度量化**: ```python llm = LLM( model="Qwen/Qwen3-30B-A3B", quantization="awq", enforce_eager=True # 提升低显存设备兼容性[^2] ) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值