Qwen3发布,你要的本地部署教程来了

在这里插入图片描述

Qwen3介绍

25年4月29日,阿里推出了最新的Qwen3模型,Qwen3是 Qwen 系列大型语言模型的最新成员,之前部署的还是Qwen2.5。Qwen3旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现均更加优异。另一方面,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能,性能成倍的提升,性能的提升以为这成本和价格的下降,对我们消费者来说都是福利。

下面是官方给出的对比图:
在这里插入图片描述

在这里插入图片描述

这次Qwen3延续了之前的开源作风,基于Apache 2.0 许可下开源了八个模型,两个 MoE 模型,六个 Dense 模型:

  • Moe模型:
    • Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型
    • Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型
  • Dense模型:
    • Qwen3-32B
    • Qwen3-14B
    • Qwen3-8B
    • Qwen3-4B
    • Qwen3-1.7B
    • Qwen3-0.6B

具体参数信息如下:

ModelsLayersHeads (Q / KV)Tie EmbeddingContext Length
Qwen3-0.6B2816 / 8Yes32K
Qwen3-1.7B2816 / 8Yes32K
Qwen3-4B3632 / 8Yes32K
Qwen3-8B3632 / 8No128K
Qwen3-14B4040 / 8No128K
Qwen3-32B6464 / 8No128K
ModelsLayersHeads (Q / KV)# Experts (Total / Activated)Context Length
Qwen3-30B-A3B4832 / 4128 / 8128K
Qwen3-235B-A22B9464 / 4128 / 8128K
Qwen3亮点
多种思考模式

Qwen3 模型支持两种思考模式:

  1. 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
  2. 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
在这里插入图片描述

多语言

Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能

语系语种&方言
印欧语系英语、法语、葡萄牙语、德语、罗马尼亚语、瑞典语、丹麦语、保加利亚语、俄语、捷克语、希腊语、乌克兰语、西班牙语、荷兰语、斯洛伐克语、克罗地亚语、波兰语、立陶宛语、挪威语(博克马尔语)、挪威尼诺斯克语、波斯语、斯洛文尼亚语、古吉拉特语、拉脱维亚语、意大利语、奥克语、尼泊尔语、马拉地语、白俄罗斯语、塞尔维亚语、卢森堡语、威尼斯语、阿萨姆语、威尔士语、西里西亚语、阿斯图里亚语、恰蒂斯加尔语、阿瓦德语、迈蒂利语、博杰普尔语、信德语、爱尔兰语、法罗语、印地语、旁遮普语、孟加拉语、奥里雅语、塔吉克语、东意第绪语、伦巴第语、利古里亚语、西西里语、弗留利语、撒丁岛语、加利西亚语、加泰罗尼亚语、冰岛语、托斯克语、阿尔巴尼亚语、林堡语、罗马尼亚语、达里语、南非荷兰语、马其顿语僧伽罗语、乌尔都语、马加希语、波斯尼亚语、亚美尼亚语
汉藏语系中文(简体中文、繁体中文、粤语)、缅甸语
亚非语系阿拉伯语(标准语、内志语、黎凡特语、埃及语、摩洛哥语、美索不达米亚语、塔伊兹-阿德尼语、突尼斯语)、希伯来语、马耳他语
南岛语系印度尼西亚语、马来语、他加禄语、宿务语、爪哇语、巽他语、米南加保语、巴厘岛语、班加语、邦阿西楠语、伊洛科语、瓦雷语(菲律宾)
德拉威语泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语
突厥语系土耳其语、北阿塞拜疆语、北乌兹别克语、哈萨克语、巴什基尔语、鞑靼语
壮侗语系泰语、老挝语
乌拉尔语系芬兰语、爱沙尼亚语、匈牙利语
南亚语系越南语、高棉语
其他日语、韩语、格鲁吉亚语、巴斯克语、海地语、帕皮阿门托语、卡布维尔迪亚努语、托克皮辛语、斯瓦希里语
增强的 Agent 能力

不仅优化了 Qwen3 模型的 Agent 和 代码能力,同时还加强了对 MCP 的支持。

本地部署

官方推荐使用 SGLangvLLM 等框架,而对于本地使用推荐 OllamaLMStudioMLXllama.cppKTransformers 这样的工具。
本文我们以Ollama为例安装Qwen-3 8B模型,并查看效果。
之前安装了Qwen2.5 7B版本模型,电脑配置如下:
在这里插入图片描述

下面我们开始安装8B模型,执行ollama run qwen3:8b开始安装:
在这里插入图片描述

安装完成看看效果:
在这里插入图片描述

输出速度感官上看很优秀。

下面给一篇文章让生成摘要:
给出内容是一篇鸿蒙文档,输出结果如下:

在这里插入图片描述

结果也比较满足需求。

再来看看代码能力:
在这里插入图片描述

感官效果很不错,把之前本地两个模型先卸载掉:
在这里插入图片描述

参考
  • 开源地址:https://github.com/QwenLM/Qwen3
<think>好的,我需要帮助用户了解Qwen3本地部署方法。首先,我得回顾一下用户提供的引用内容,看看有哪些相关的部署指南。引用[1]提到了使用SGLang部署Qwen3-30B-A3B-FP8模型,运行命令包括设置环境变量和启动服务器。引用[3]详细说明了使用Hugging Face Transformers和ModelScope下载Qwen3-32B模型,并提到SGLang的部署步骤。引用[4]则介绍了使用VLLM框架进行部署,包括环境准备、依赖安装和模型下载。用户之前可能已经询问过相关问题,所以需要综合这些信息给出清晰的步骤。 用户的需求是本地部署Qwen3,可能需要不同的方法,比如使用SGLang或VLLM。我应该分步骤说明,确保结构清晰。首先环境准备,安装必要的库和工具,比如Python虚拟环境、ModelScope、SGLang或VLLM。然后模型下载,通过ModelScope或Hugging Face获取模型文件。接着部署方法,分两种:SGLang和VLLM,每种都要具体的命令和参数。最后验证服务,确保部署成功,比如运行测试代码或API调用。 需要注意用户提供的引用中有不同的模型版本,如30B和32B,需要指出用户应根据需求选择合适的模型。同时,硬件要求如GPU显存可能影响部署方式,需要提及。可能的问题包括依赖冲突或模型路径错误,提醒用户注意这些点。最后生成相关问题,帮助用户进一步了解优化和应用场景。</think>以下是Qwen3本地部署的详细指南,整合了多种主流部署方案: ### 一、环境准备 1. 安装Python虚拟环境 ```bash conda create -n qwen3 python=3.10 conda activate qwen3 ``` 2. 安装基础依赖库 ```bash pip install modelscope transformers torch ``` ### 二、模型下载 #### 方案1:通过ModelScope下载 ```bash modelscope download --model Qwen/Qwen3-32B --local_dir ./Qwen3-32B ``` #### 方案2:HuggingFace下载 ```python from transformers import AutoModel model = AutoModel.from_pretrained("Qwen/Qwen3-32B", trust_remote_code=True) ``` ### 三、部署方法 #### 方案A:SGLang部署(适合交互式开发) 1. 安装依赖 ```bash pip install sglang ``` 2. 启动服务 ```bash SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \ --model-path ./Qwen3-32B \ --port 8000 \ --gpu-memory-utilization 0.9 ``` 3. 验证服务 ```python from sglang import function @function def qa(s, question): s += f"问题:{question}\n回答:" s += runtime.generate("answer", max_tokens=256) qa(question="解释量子计算的基本原理") ``` #### 方案B:VLLM部署(适合生产环境) 1. 安装依赖 ```bash pip install vllm flash-attn --extra-index-url https://download.pytorch.org/whl/cu118 ``` 2. 启动服务 ```bash python -m vllm.entrypoints.openai.api_server \ --model ./Qwen3-32B \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85 \ --served-model-name qwen3-32b ``` 3. API调用示例 ```python import openai client = openai.OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="qwen3-32b", messages=[{"role": "user", "content": "编写Python快速排序算法"}] ) print(response.choices[0].message.content) ``` ### 四、硬件要求建议 | 模型版本 | 最小显存 | 推荐显存 | 部署方案 | |----------|----------|----------|----------------| | 7B | 16GB | 24GB | 单卡部署 | | 14B | 24GB | 40GB | 单卡/双卡 | | 32B | 80GB | 120GB | 多卡并行 | ### 五、常见问题排查 1. **CUDA内存不足**:调整`--gpu-memory-utilization`参数(建议0.8-0.95) 2. **下载中断**:使用`modelscope download --resume-download`续传 3. **依赖冲突**:建议使用干净的Python虚拟环境
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

轻口味

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值