本地部署堪比满血deepseek-r1的qwq-32b

cornplanter

已于 2025-03-07 10:02:45 修改

阅读量8.2k

点赞数 12

文章标签：人工智能 AI-native ai AIGC

于 2025-03-06 10:31:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cornplanter/article/details/146060852

版权

3月6日，阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B，据阿里官方发布信息显示，其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平，同时通过技术优化显著降低运行门槛，可实现普通显卡设备的本地化运行。

qwq32b最大的模型有66G，推荐服务器或者内存96G起（虚拟内存+内存+显存大于66G+系统）的部署。

内存+显存大于模型+系统。最小的模型好像就13G，显存大的可以放进显存。

搜索qwq-32b-gguf，或者访问huggingface.co（可能要开机场），或者通义千问 QwQ-32B-GGUF · 模型库下载gguf模型。

打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation

或者参考博文NVIDIA英伟达所有GPU显卡算力及其支持的精度模式_英伟达显卡cuda算力-CSDN博客。

基本上下载QwQ-32B-Preview-Q5_K.gguf（32G内存推荐）QwQ-32B-Preview-Q6_K.gguf就可以了。

下载慢的可以用链接下载。

Ollama 加载GGUF模型文件

使用 Ollama 加载指定的模型文件运行也非常容易。

1、创建模型配置文件

创建一个包含以下内容的模型配置文件，比如: 这个文件名qwq.mf，文件内容如下：

FROM ./QwQ-32B-Preview-Q6_K_L.gguf

这里的FROM参数用于指定需要加载的具体模型文件。

2、构建对应的Ollama模型

我们使用以下命令构建 Ollama 模型（打开powershell,cd到对应目录比如cd D:\model）：ollama create qwq32 -f ./qwq.mf

其中 qwq32 是我们准备在Ollama中使用该模型的别名。

3、使用这个模型

现在我们就可以使用了，我们可以发挥自己的想象：

ollama run qwq32

还有，qwq32b的模型幻觉似乎有点严重，可以调低模型温度

$ ollama run qwq32

>>> /set parameter temperature 0.7

或者修改qwq.mf
加一行

temperature 0.7

删除旧模型（ollama rm qwq32），重新载入模型(ollama create qwq32 -f ./qwq.mf)。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。