自从通义千问推出Qwen3系列大模型,人们的注意力一下子从DeepSeek上转移出不少。有一点遗憾是235B的参数量,不见得能达到或者超过671B的效果?
但这并不影响我的兴趣,因为我更关心私有部署,以及各种模型在硬件上的性能发挥。本次的Qwen3除了传统的Dense(稠密)模型之外,还包含2个MoE专家激活模型——Qwen3-30B-A3B和Qwen3-235B-A22B。其实这并不是通义千问第一次发布MoE模型,在Qwen2时就有过一款57B-A14B;不过应该说是从DeepSeek之后才吸引了人们对MoE更多的关注。
上图给出了选择不同模型的简单指导。235B-A22B(与671B相比)显存资源占用低,在同等硬件上性能更好;30B-A3B的优点类似。
不过这只是一个基本建议,在我自己动手测试之前,也只能说是了解个大概。尽管本次测试也有一定的局限性,但我觉得还是能反映出一些东西,值得作为干货来分享给大家。
Qwen3 30B-A3B MoE模型的惊艳性能表现
测试模型 | 参数量(激活参数量) | 模型文件大小 |
---|---|---|
Qwen3-4B-Q4_K_M | 40亿 | 2.32GB |
DeepSeek-R1-Distill-Qwen-7B-Q4_K_M | 70亿 | 4.36GB |
Qwen3-8B-Q4_K_M | 80亿 | 4.68GB |
Qwen3-14B-Q4_K_M | 140亿 | 8.38GB |
Qwen3-30B-A3B-Q3_K_L | 300亿(30亿) | 13.5GB |
Qwen3-32B-Q3_K_L | 320亿 | 16.1GB |
注1:本次测试包含2种精度的模型,原则上尽量使用Q4_K_M(INT4量化精度);由于30B和32B参数量较大,受限于测试机32GB内存的配置,选择了Q3_K_L模型用于参考对比。
注2:以上图表只是对比了相对性能,我并没有标出具体的Token/s数值,本文的目的更多是为了对比模型之间的区别。
我是用一台32GB内存、集成显卡的AI PC来测试的。在内存(含iGPU共享内存)带宽固定的情况下,我已经习惯了iGPU比CPU Core的AI算力表现更好。
另外一点规律:通常参数量越小的模型,在同样硬件上运行的速度就越快,反之亦然。那个真正“飞快”的其实是1.5B。上图中我一共测试了5款Dense模型:Qwen3 4B、8B、14B、32B,以及DeepSeek R1 Distill Qwen 7B蒸馏模型。它们的表现都是符合这两点规律的。
唯一有点特别的是,我之前很少看到有人在32GB内存的笔记本上跑32B模型。实际上int4量化之后用CPU可以跑起来,但问题是:1、速度难以接受;2、如果想用性能更好的iGPU,系统内存+共享显存的开销容易超标。
由于我本次的测试机就是32GB内存,所以Qwen3-30B-A3B和Qwen3-32B模型选择了Q3_K_L(3bit量化)——其模型文件大小分别为14B的1.61和1.92倍。上面呈现出的传统32B Dense模型测试结果还是不理想,iGPU模式下可能爆内存了,所以没比CPU快太多。
为了让Qwen3-30B-A3B在iGPU上能跑流畅些,我还用了另一个办法(稍后具体讲)。MoE模型测试结果是振奋人心的。30B-A3B-Q3跑出了跟4B Q4接近的性能;而且用CPU跑出的速度,也比7B、8B的iGPU模式要强。这符合MoE模型本身的特点:内存容量开销与传统Dense模型相同,但每次激活参数少,所以对算力的需求大幅降低。此时CPU Core与iGPU的差距就被拉近了。
LM Studio:AI PC易上手的工具
本次测试我使用了LM Studio,它与Ollama的底层都是llama.cpp,Ollama出现更早应该说也更成熟一些,不过后来者也有几点优势或者说特点,我简单总结如下:
- LM Studio自带图形界面,这一点在Windows下使用方便多了;而Ollama只有命令行所以要搭配Open Webui这些。
- 官方提供适配AI PC的版本,比如想把AMD的Radeon集显用起来,从这里下载就好https://lmstudio.ai/ryzenai
- 可直接使用.gguf格式的模型文件。Ollama其实也支持,只是要先导入成自己的格式。
注:LM Studio也是在一两天之内就开始支持Qwen3系列模型(能看出识别了moe等信息)。这里我踩过一个小小坑,提醒大家一下:网上有不少人分享同名的Qwen3-XXXX.gguf量化模型文件,最好是从https://huggingface.co/lmstudio-community或者https://www.modelscope.cn/organization/lmstudio-community下载,兼容LM Studio更有保证。
在选择加载模型时,从这里可以看出模型的层数——比如Qwen3 30B A3B是48层,“GPU卸载”一项可以选择其中多少层加载到CPU/GPU。像我本次使用AI PC,在大多数情况下若想跑得快些,应该拉到最右边。如果该拉杆不能操作,可能与下面的设置有关:
如上图,当“配置运行环境”选择Vulkan llama.cpp (Windows)之后,就可以使用AMD AI PC集成的Radeon显卡来处理大模型了。
注:当前LM Studio还不支持GPU+NPU混合加速,期待将来会有吧。
以上为文本生成测试过程中的截图
测试硬件 & iGPU共享内存容量调节
以上是我本次测试的AI PC笔记本配置。
- *机型:Dell Pro 14 Plus PB14255*(相当于以前的Latitude商用笔记本5000系列)
- CPU*:*AMD Ryzen AI 7 PRO 350
- *集成显卡:*AMD Radeon 860M
- 内存:32GB LPDDR5 8000MT/s,双通道(或称4x32bit),实际工作频率**7500MT/s
- NVMe SSD*:*1TB
上图可以看到AMD集显的一点不同之处——默认设置下,具备4xx MB(或称0.5GB)的专用显存,再加上最多可以共享一半的系统内存,约32/2=16GB。
这个“可变显示卡内存”有两种修改方式,一种是上图中的3档调节;或者下图中更多的容量选项。
为了更清晰些我还是整理个表格:
总内存容量 | 以32GB为例 | ||
---|---|---|---|
可变显示卡内存 | 专用GPU内存 | 剩余系统内存 | 共享GPU内存(左边一项的50%) |
Minimum(默认值) | 0.5 GB | 31.5 GB | 15.75 GB |
Medium | 8 GB | 24 GB | 12 GB |
High | 16 GB | 16 GB | 8 GB |
自定义 | 0.5 - 24GB | 最小8 GB | 最小4 GB |
按照这个算法,高端CPU——AMD Ryzen™ AI MAX+ 395,如果配置128GB内存,将“固定显存”设置为64GB,其“固定+可共享显存”就应该达到了96GB。
本次在用iGPU测试Qwen3 30B-A3B、32B模型时,我是将“可变显示卡内存”设置为“High”——即分配16 GB的“专用GPU内存”。具体测试32B模型时的截图如下:
“专用GPU内存”+“共享GPU内存”这种驱动上的设计,我觉得是为了适应微软Windows对集显内存共享的策略。在考虑全局内存开销时,我们可以看左边“23.8 GB” 的GPU总体内存占用了多少,再加上系统内存的开销——这两项最好都不要太贴近上限,否则会爆内存或者影响性能。
我在本次测试中用32GB内存AI PC的iGPU跑了30B、32B Q3_K_L大模型。在此基础上有长上下文需求的应用,一种传统做法是增加内存容量到64GB;或者考虑KV Cache压缩/卸载到SSD的新技术。另外,大多数生产环境不建议低于Q4_K_M精度,一些情况下可能会考虑高效的动态量化模型。
小结
按照行业共识,MoE专家模型更适合AI对话;RAG知识库等还是用传统Dense模型比较好。这一次Qwen3 30B-A3B无疑是对端侧算力需求的大幅降低,期待有更好的应用出现。
上图是我在AMD文档《WHAT INFRASTRUCTURE WORKS BEST FOR INFERENCE?》中看到过的,高核数服务器CPU也可以适用于一些不超过20B参数的Transformers/LLM应用。
本次我测试的笔记本CPU,是4x Zen5 + 4x Zen5c一共8核,高性能模式下19-25W功耗释放。从另一个角度来看,如果换成EPYC服务器,算力和内存带宽还能提高许多,如果跑Qwen3 30B-A3B这样的模型应该可以有更高的性能和并发支持表现。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。