媲美满血R1+，刚刚，阿里推理模型QwQ-32B开源

最新推荐文章于 2025-03-24 09:54:59 发布

X.Cristiano

最新推荐文章于 2025-03-24 09:54:59 发布

阅读量2k

点赞数 33

本文链接：https://blog.csdn.net/m0_37733448/article/details/146074204

版权

深度学习专栏收录该内容

25 篇文章

订阅专栏

深夜突发，阿里开源了最新的推理模型 QwQ-32B，有3大亮点：

能够与当前最先进的推理模型DeepSeek-R1（满血哦，不是蒸馏）和 o1-mini相媲美
推理模型中集成了与 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。
小尺寸，不要671B，只要32B，推理门槛低

QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B如何炼成的？

在冷启动的基础上开展了大规模强化学习：

在初始阶段，特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型（reward model）不同，通过校验生成答案的正确性来为数学问题提供反馈，并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
在第一阶段的 RL 过后，增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL，可以提升其他通用能力，同时在数学和编程任务上的性能没有显著下降。

QwQ-32B技术要点

模型类型： Causal Language Models训练阶段：预训练与后训练（包括监督微调和强化学习）架构：采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架构参数数量：32.5B非嵌入层参数数量：31.0B层数：64 层注意力头数量（GQA）：Q 为 40 个，KV 为 8 个上下文长度：完整支持 131,072 个tokens

一、千问QwQ-32B：参数少但性能炸裂

阿里通义千问团队今日凌晨正式开源推理模型QwQ-32B，仅凭320亿参数（非嵌入参数31亿），竟在多项关键指标上追平甚至超越参数规模超6710亿的顶尖模型DeepSeek-R1！

性能亮点速览：
• 数学推理：在AIME24评测中表现与DeepSeek-R1持平，远超同类模型o1-mini；
• 代码生成：LiveCodeBench测试中，代码通过率与DeepSeek-R1相当；
• 通用能力：在指令遵循（IFEval）、函数调用（BFCL）等测试中，综合得分超越DeepSeek-R1；
• 超长上下文：支持131K token的输入长度，可处理复杂长文本任务。

更让开发者狂喜的是：QwQ-32B采用密集架构（Dense），无需复杂并行技术，普通显卡（如苹果M4 Max芯片笔记本）即可本地部署！成本仅为DeepSeek-R1的1/10，堪称中小企业的“生产力救星”。

评估集的测试效果

怎么使用QwQ-32B

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids inzip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

二、技术突破：强化学习（RL）炼就“思考习惯”

QwQ-32B的逆天表现，源于阿里在**大规模强化学习（RL）**上的创新实践。团队通过两阶段训练，让模型学会“像人类一样思考”：

1. 第一阶段：专攻数学与代码
• 数学任务：通过答案正确性校验器提供反馈，而非传统奖励模型；
• 代码任务：搭建代码执行服务器，实时测试生成代码是否通过用例；
• 结果：数学推导精准度、代码生成效率持续提升，未出现性能瓶颈。
2. 第二阶段：通用能力跃迁
• 引入通用奖励模型+规则验证器，少量训练即提升指令遵循、人类偏好对齐等能力；
• 关键发现：RL训练中，“思考模式”比答案正确性更重要（与斯坦福最新研究结论一致）。

划时代意义：QwQ-32B证明，中等模型+RL训练的组合，可突破参数规模限制，甚至挑战巨型MoE模型！

三、开源生态：开发者零门槛体验

阿里此次诚意拉满，全链路开放模型资源：
• 模型下载：Hugging Face、ModelScope同步上线，Apache 2.0协议商用无忧；
• 在线Demo：Hugging Face Spaces提供即时交互体验；
• API集成：示例代码已公开，快速接入现有系统。

网友实测反馈：
• “在MacBook上跑起来毫无压力，写代码比GPT-4还流畅！”
• “Agent功能绝了，调用工具时还能自我纠错！”