媲美满血R1+,刚刚,阿里推理模型QwQ-32B开源

深夜突发,阿里开源了最新的推理模型 QwQ-32B,有3大亮点:

  • 能够与当前最先进的推理模型DeepSeek-R1(满血哦,不是蒸馏) 和 o1-mini相媲美

  • 推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

  • 小尺寸,不要671B,只要32B,推理门槛低

图片

 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

图片

QwQ-32B如何炼成的?

在冷启动的基础上开展了大规模强化学习:

  • 在初始阶段,特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。

  • 在第一阶段的 RL 过后,增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。

QwQ-32B技术要点

模型类型: Causal Language Models训练阶段:预训练与后训练(包括监督微调和强化学习)架构:采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架构参数数量:32.5B非嵌入层参数数量:31.0B层数:64 层注意力头数量(GQA):Q 为 40 个,KV 为 8 个上下文长度:完整支持 131,072 个tokens

一、千问QwQ-32B:参数少但性能炸裂

阿里通义千问团队今日凌晨正式开源推理模型QwQ-32B,仅凭320亿参数(非嵌入参数31亿),竟在多项关键指标上追平甚至超越参数规模超6710亿的顶尖模型DeepSeek-R1!

性能亮点速览:
• 数学推理:在AIME24评测中表现与DeepSeek-R1持平,远超同类模型o1-mini;
• 代码生成:LiveCodeBench测试中,代码通过率与DeepSeek-R1相当;
• 通用能力:在指令遵循(IFEval)、函数调用(BFCL)等测试中,综合得分超越DeepSeek-R1;
• 超长上下文:支持131K token的输入长度,可处理复杂长文本任务。

更让开发者狂喜的是:QwQ-32B采用密集架构(Dense),无需复杂并行技术,普通显卡(如苹果M4 Max芯片笔记本)即可本地部署!成本仅为DeepSeek-R1的1/10,堪称中小企业的“生产力救星”。


评估集的测试效果

评估集的测试效果


评估集的测试效果

怎么使用QwQ-32B
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids inzip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

二、技术突破:强化学习(RL)炼就“思考习惯”

QwQ-32B的逆天表现,源于阿里在**大规模强化学习(RL)**上的创新实践。团队通过两阶段训练,让模型学会“像人类一样思考”:

  1. 1. 第一阶段:专攻数学与代码
    • 数学任务:通过答案正确性校验器提供反馈,而非传统奖励模型;
    • 代码任务:搭建代码执行服务器,实时测试生成代码是否通过用例;
    • 结果:数学推导精准度、代码生成效率持续提升,未出现性能瓶颈。

  2. 2. 第二阶段:通用能力跃迁
    • 引入通用奖励模型+规则验证器,少量训练即提升指令遵循、人类偏好对齐等能力;
    • 关键发现:RL训练中,“思考模式”比答案正确性更重要(与斯坦福最新研究结论一致)。

划时代意义:QwQ-32B证明,中等模型+RL训练的组合,可突破参数规模限制,甚至挑战巨型MoE模型!


三、开源生态:开发者零门槛体验

阿里此次诚意拉满,全链路开放模型资源
• 模型下载:Hugging Face、ModelScope同步上线,Apache 2.0协议商用无忧;
• 在线Demo:Hugging Face Spaces提供即时交互体验;
• API集成:示例代码已公开,快速接入现有系统。

网友实测反馈
• “在MacBook上跑起来毫无压力,写代码比GPT-4还流畅!”
• “Agent功能绝了,调用工具时还能自我纠错!”


四、行业影响:AI平民化时代来临

QwQ-32B的开源或将改写行业规则
• 学术圈:提供高质量基座模型,加速推理能力研究;
• 企业端:降低AI部署成本,推动金融、医疗、物流等场景落地;
• 伦理责任:阿里承诺同步开展合规性研究,平衡技术与社会责任。

专家评价

“这是AI模型发展的重要转折点——性能天花板不再由参数数量决定,而是训练方法的革新。”


五、立即体验:点击直达

🔥尝鲜入口
• 在线聊天:Qwen Chat
• 模型下载:Hugging Face仓库
• 技术解读:官方博客


未来已来:QwQ-32B不仅是一次技术突破,更预示着**AGI(通用人工智能)**的可能路径——强大的基座模型+规模化RL,或许正是打开智能之门的钥匙。快下载模型,加入这场AI革命吧!

### 关于 QwQ-32B 模型 API 的资料与使用方法 #### 创建本地服务器以暴露 QwQ-32B 模型 为了通过 API 与 QwQ-32B 进行交互,可以利用 FastAPI 或 Flask 构建一个本地服务器来暴露此模型。这一步骤允许其他应用或服务调用该模型的功能[^1]。 以下是基于 Python 和 FastAPI 实现的一个简单示例: ```python from fastapi import FastAPI, Request app = FastAPI() @app.post("/predict/") async def predict(request: Request): data = await request.json() input_text = data.get("input", "") # 假设此处有一个函数用于处理输入并返回预测结果 result = process_input_with_qwq32b(input_text) return {"output": result} def process_input_with_qwq32b(text): # 替换为实际的 QwQ-32B 处理逻辑 return f"Processed {text}" ``` #### 在线调试工具 Apifox 提供的支持 对于不想自行部署环境的开发者来说,Apifox 平台提供了便捷的方式,在线即可完成对 QwQ-32B 接口的调试工作。这意味着无需额外配置硬件资源或者安装复杂软件栈就能快速上手操作[^2]。 访问地址通常会包含类似如下结构的信息: `https://apifox.com/api/qwq32b/v1/generate?prompt=your_prompt_here&max_tokens=50` 其中 `your_prompt_here` 是您希望生成内容所依据的具体提示词;而参数 `max_tokens` 则定义了期望获得的最大令牌数量。 #### 温度数据获取及其他功能扩展 除了基本的文字生成功能之外,还可以进一步探索如何从 Ollama API 获取更多维度的数据比如“temperature”(温度),它反映了输出随机性的程度。合理设置这些超参有助于提升最终效果表现力以及满足特定应用场景需求[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值