本地部署堪比满血deepseek-r1的qwq-32b

3月6日,阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B,据阿里官方发布信息显示,其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平,同时通过技术优化显著降低运行门槛,可实现普通显卡设备的本地化运行。

qwq32b最大的模型有66G,推荐服务器或者内存96G起(虚拟内存+内存+显存大于66G+系统)的部署。

内存+显存大于模型+系统。最小的模型好像就13G,显存大的可以放进显存。

搜索qwq-32b-gguf,或者访问huggingface.co(可能要开机场),或者通义千问 QwQ-32B-GGUF · 模型库下载gguf模型。

打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation

或者参考博文NVIDIA英伟达所有GPU显卡算力及其支持的精度模式_英伟达显卡cuda算力-CSDN博客

基本上下载QwQ-32B-Preview-Q5_K.gguf(32G内存推荐)QwQ-32B-Preview-Q6_K.gguf就可以了。

下载慢的可以用链接下载。

Ollama 加载GGUF模型文件

使用 Ollama 加载指定的模型文件运行也非常容易。

1、创建模型配置文件

创建一个包含以下内容的模型配置文件,比如: 这个文件名qwq.mf,文件内容如下:

FROM ./QwQ-32B-Preview-Q6_K_L.gguf

这里的FROM参数用于指定需要加载的具体模型文件。

2、构建对应的Ollama模型

我们使用以下命令构建 Ollama 模型(打开powershell,cd到对应目录比如cd D:\model):ollama create qwq32 -f ./qwq.mf

其中 qwq32 是我们准备在Ollama中使用该模型的别名。

3、使用这个模型

现在我们就可以使用了,我们可以发挥自己的想象:

ollama run qwq32

还有,qwq32b的模型幻觉似乎有点严重,可以调低模型温度

$ ollama run qwq32

>>> /set parameter temperature 0.7

或者修改qwq.mf
加一行

temperature 0.7

删除旧模型(ollama rm qwq32),重新载入模型(ollama create qwq32 -f ./qwq.mf)。

### DeepSeek-R1-Distill-Qwen-14B 模型介绍 DeepSeek-R1-Distill-Qwen-14B 是通过从大型预训练模型 DeepSeek-R1 进行知识蒸馏得到的一个较为紧凑的密集模型。该模型继承了 DeepSeek-R1 的强大推理能力和广泛的知识库,但在参数量上显著减少至 140 亿个参数[^2]。 #### 特点 1. **高效推理能力** 尽管参数规模减小,但 DeepSeek-R1-Distill-Qwen-14B 在多个基准测试中表现出色,在某些特定任务上的表现甚至超过了更大规模的基础模型 QwQ-32B-Preview。这种高效的推理能力使得其成为处理复杂自然语言理解和生成任务的理想选择。 2. **优化资源利用** 减少后的参数数量不仅降低了计算成本,还提高了部署灵活性。相比原始的大规模模型,此版本更适合于资源受限环境下的应用开发和实际部署。 3. **卓越的任务适应性** 继承自 DeepSeek-R1 的先进架构设计以及监督学习与强化学习相结合的方法论,赋予了这个较小型号出色的泛化能力和多领域适用性。特别是在数学竞赛类任务如 AIME 2024 中的表现尤为突出,超越了 GPT-4o 和 Claude 3.5 等竞争对手[^3]。 #### 应用场景 鉴于上述特性,DeepSeek-R1-Distill-Qwen-14B 可应用于多种场合: - **教育辅助工具**:能够帮助学生解答复杂的数理逻辑题目,提供精准的学习指导; - **智能客服系统**:凭借强大的语义理解力快速响应用户咨询并给出恰当建议; - **自动化写作平台**:支持高质量文章创作、摘要提取等功能需求; - **企业级数据分析服务**:用于构建高性能的数据挖掘算法或预测分析引擎。 ```python # 示例代码展示如何加载并使用 DeepSeek-R1-Distill-Qwen-14B 模型进行文本分类任务 from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "deepseek-ai/deepseek-r1-distill-qwen-14b" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) def classify_text(text_input): inputs = tokenizer(text_input, return_tensors="pt", truncation=True, padding=True) outputs = model(**inputs) predictions = torch.argmax(outputs.logits, dim=-1).item() return predictions ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值