3月6日,阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B,据阿里官方发布信息显示,其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平,同时通过技术优化显著降低运行门槛,可实现普通显卡设备的本地化运行。
qwq32b最大的模型有66G,推荐服务器或者内存96G起(虚拟内存+内存+显存大于66G+系统)的部署。
内存+显存大于模型+系统。最小的模型好像就13G,显存大的可以放进显存。
搜索qwq-32b-gguf,或者访问huggingface.co(可能要开机场),或者通义千问 QwQ-32B-GGUF · 模型库下载gguf模型。
打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation
或者参考博文NVIDIA英伟达所有GPU显卡算力及其支持的精度模式_英伟达显卡cuda算力-CSDN博客。
基本上下载QwQ-32B-Preview-Q5_K.gguf(32G内存推荐)QwQ-32B-Preview-Q6_K.gguf就可以了。
下载慢的可以用链接下载。
Ollama 加载GGUF模型文件
使用 Ollama 加载指定的模型文件运行也非常容易。
1、创建模型配置文件
创建一个包含以下内容的模型配置文件,比如: 这个文件名qwq.mf,文件内容如下:
FROM ./QwQ-32B-Preview-Q6_K_L.gguf
这里的FROM
参数用于指定需要加载的具体模型文件。
2、构建对应的Ollama模型
我们使用以下命令构建 Ollama 模型(打开powershell,cd到对应目录比如cd D:\model):ollama create qwq32 -f ./qwq.mf
其中 qwq32 是我们准备在Ollama中使用该模型的别名。
3、使用这个模型
现在我们就可以使用了,我们可以发挥自己的想象:
ollama run qwq32
还有,qwq32b的模型幻觉似乎有点严重,可以调低模型温度
$ ollama run qwq32
>>> /set parameter temperature 0.7
或者修改qwq.mf
加一行
temperature 0.7
删除旧模型(ollama rm qwq32),重新载入模型(
ollama create qwq32 -f ./qwq.mf)。