从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求

程序猿李巡天

于 2025-05-24 10:17:16 发布

阅读量546

点赞数 19

文章标签： gpu算力人工智能 batch prompt 知识图谱 oracle

本文链接：https://blog.csdn.net/m0_59235945/article/details/148186265

版权

自从通义千问推出Qwen3系列大模型，人们的注意力一下子从DeepSeek上转移出不少。有一点遗憾是235B的参数量，不见得能达到或者超过671B的效果？

但这并不影响我的兴趣，因为我更关心私有部署，以及各种模型在硬件上的性能发挥。本次的Qwen3除了传统的Dense（稠密）模型之外，还包含2个MoE专家激活模型——Qwen3-30B-A3B和Qwen3-235B-A22B。其实这并不是通义千问第一次发布MoE模型，在Qwen2时就有过一款57B-A14B；不过应该说是从DeepSeek之后才吸引了人们对MoE更多的关注。

上图给出了选择不同模型的简单指导。235B-A22B（与671B相比）显存资源占用低，在同等硬件上性能更好；30B-A3B的优点类似。

不过这只是一个基本建议，在我自己动手测试之前，也只能说是了解个大概。尽管本次测试也有一定的局限性，但我觉得还是能反映出一些东西，值得作为干货来分享给大家。

Qwen3 30B-A3B MoE模型的惊艳性能表现

测试模型	参数量（激活参数量）	模型文件大小
Qwen3-4B-Q4_K_M	40亿	2.32GB
DeepSeek-R1-Distill-Qwen-7B-Q4_K_M	70亿	4.36GB
Qwen3-8B-Q4_K_M	80亿	4.68GB
Qwen3-14B-Q4_K_M	140亿	8.38GB
Qwen3-30B-A3B-Q3_K_L	300亿（30亿）	13.5GB
Qwen3-32B-Q3_K_L	320亿	16.1GB

注1：本次测试包含2种精度的模型，原则上尽量使用Q4_K_M（INT4量化精度）；由于30B和32B参数量较大，受限于测试机32GB内存的配置，选择了Q3_K_L模型用于参考对比。

注2：以上图表只是对比了相对性能，我并没有标出具体的Token/s数值，本文的目的更多是为了对比模型之间的区别。

我是用一台32GB内存、集成显卡的AI PC来测试的。在内存（含iGPU共享内存）带宽固定的情况下，我已经习惯了iGPU比CPU Core的AI算力表现更好。

另外一点规律：通常参数量越小的模型，在同样硬件上运行的速度就越快，反之亦然。那个真正“飞快”的其实是1.5B。上图中我一共测试了5款Dense模型：Qwen3 4B、8B、14B、32B，以及DeepSeek R1 Distill Qwen 7B蒸馏模型。它们的表现都是符合这两点规律的。

唯一有点特别的是，我之前很少看到有人在32GB内存的笔记本上跑32B模型。实际上int4量化之后用CPU可以跑起来，但问题是：1、速度难以接受；2、如果想用性能更好的iGPU，系统内存+共享显存的开销容易超标。

由于我本次的测试机就是32GB内存，所以Qwen3-30B-A3B和Qwen3-32B模型选择了Q3_K_L（3bit量化）——其模型文件大小分别为14B的1.61和1.92倍。上面呈现出的传统32B Dense模型测试结果还是不理想，iGPU模式下可能爆内存了，所以没比CPU快太多。

为了让Qwen3-30B-A3B在iGPU上能跑流畅些，我还用了另一个办法（稍后具体讲）。MoE模型测试结果是振奋人心的。30B-A3B-Q3跑出了跟4B Q4接近的性能；而且用CPU跑出的速度，也比7B、8B的iGPU模式要强。这符合MoE模型本身的特点：内存容量开销与传统Dense模型相同，但每次激活参数少，所以对算力的需求大幅降低。此时CPU Core与iGPU的差距就被拉近了。

LM Studio：AI PC易上手的工具

本次测试我使用了LM Studio，它与Ollama的底层都是llama.cpp，Ollama出现更早应该说也更成熟一些，不过后来者也有几点优势或者说特点，我简单总结如下：

- LM Studio自带图形界面，这一点在Windows下使用方便多了；而Ollama只有命令行所以要搭配Open Webui这些。

- 官方提供适配AI PC的版本，比如想把AMD的Radeon集显用起来，从这里下载就好https://lmstudio.ai/ryzenai

- 可直接使用.gguf格式的模型文件。Ollama其实也支持，只是要先导入成自己的格式。

注：LM Studio也是在一两天之内就开始支持Qwen3系列模型（能看出识别了moe等信息）。这里我踩过一个小小坑，提醒大家一下：网上有不少人分享同名的Qwen3-XXXX.gguf量化模型文件，最好是从https://huggingface.co/lmstudio-community或者https://www.modelscope.cn/organization/lmstudio-community下载，兼容LM Studio更有保证。

在选择加载模型时，从这里可以看出模型的层数——比如Qwen3 30B A3B是48层，“GPU卸载”一项可以选择其中多少层加载到CPU/GPU。像我本次使用AI PC，在大多数情况下若想跑得快些，应该拉到最右边。如果该拉杆不能操作，可能与下面的设置有关：

如上图，当“配置运行环境”选择Vulkan llama.cpp (Windows)之后，就可以使用AMD AI PC集成的Radeon显卡来处理大模型了。

注：当前LM Studio还不支持GPU+NPU混合加速，期待将来会有吧。

以上为文本生成测试过程中的截图

测试硬件 & iGPU共享内存容量调节

以上是我本次测试的AI PC笔记本配置。

- *机型：Dell Pro 14 Plus PB14255*（相当于以前的Latitude商用笔记本5000系列）

- CPU*：*AMD Ryzen AI 7 PRO 350

- *集成显卡：*AMD Radeon 860M

- 内存：32GB LPDDR5 8000MT/s，双通道（或称4x32bit），实际工作频率**7500MT/s

- NVMe SSD*：*1TB

上图可以看到AMD集显的一点不同之处——默认设置下，具备4xx MB（或称0.5GB）的专用显存，再加上最多可以共享一半的系统内存，约32/2=16GB。

这个“可变显示卡内存”有两种修改方式，一种是上图中的3档调节；或者下图中更多的容量选项。

为了更清晰些我还是整理个表格：

总内存容量	以32GB为例
可变显示卡内存	专用GPU内存	剩余系统内存	共享GPU内存(左边一项的50%)
Minimum（默认值）	0.5 GB	31.5 GB	15.75 GB
Medium	8 GB	24 GB	12 GB
High	16 GB	16 GB	8 GB
自定义	0.5 - 24GB	最小8 GB	最小4 GB

按照这个算法，高端CPU——AMD Ryzen™ AI MAX+ 395，如果配置128GB内存，将“固定显存”设置为64GB，其“固定+可共享显存”就应该达到了96GB。

本次在用iGPU测试Qwen3 30B-A3B、32B模型时，我是将“可变显示卡内存”设置为“High”——即分配16 GB的“专用GPU内存”。具体测试32B模型时的截图如下：

“专用GPU内存”+“共享GPU内存”这种驱动上的设计，我觉得是为了适应微软Windows对集显内存共享的策略。在考虑全局内存开销时，我们可以看左边“23.8 GB” 的GPU总体内存占用了多少，再加上系统内存的开销——这两项最好都不要太贴近上限，否则会爆内存或者影响性能。

我在本次测试中用32GB内存AI PC的iGPU跑了30B、32B Q3_K_L大模型。在此基础上有长上下文需求的应用，一种传统做法是增加内存容量到64GB；或者考虑KV Cache压缩/卸载到SSD的新技术。另外，大多数生产环境不建议低于Q4_K_M精度，一些情况下可能会考虑高效的动态量化模型。

小结

按照行业共识，MoE专家模型更适合AI对话；RAG知识库等还是用传统Dense模型比较好。这一次Qwen3 30B-A3B无疑是对端侧算力需求的大幅降低，期待有更好的应用出现。

上图是我在AMD文档《WHAT INFRASTRUCTURE WORKS BEST FOR INFERENCE?》中看到过的，高核数服务器CPU也可以适用于一些不超过20B参数的Transformers/LLM应用。

本次我测试的笔记本CPU，是4x Zen5 + 4x Zen5c一共8核，高性能模式下19-25W功耗释放。从另一个角度来看，如果换成EPYC服务器，算力和内存带宽还能提高许多，如果跑Qwen3 30B-A3B这样的模型应该可以有更高的性能和并发支持表现。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述