【AGI】Qwen3系列模型介绍及特性

(1)Qwen3 模型简介

2025年4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3,其中旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能,性能全面超越Deepseek-R1、豆包1.5pro 等国内领先模型,并登顶全球最强开源模型。Qwen3原生支持MCP协议,并具备强大的工具调用(function calling)能力,并且集成封装了工具调用模板和工具调用解析器的Qwen-Agent 框架,大大降低编码复杂性,Qwen3 的工具调用能力,支持实现高效的手机及电脑Agent操作等任务。

在这里插入图片描述

在这里插入图片描述

(2)Qwen3 模型特性

最新版本Qwen3有以下特点:

  • 全尺寸稠密与混合专家模型:0.6B, 1.7B, 4B, 8B, 14B, 32B and 30B-A3B, 235B-A22B
  • 支持在思考模式(用于复杂逻辑推理、数学和编码)和 非思考模式 (用于高效通用对话)之间无缝切换,确保在各种场景下的最佳性能。
  • 显著增强的推理能力,在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ(在思考模式下)和 Qwen2.5 指令模型(在非思考模式下)。
  • 卓越的人类偏好对齐,在创意写作、角色扮演、多轮对话和指令跟随方面表现出色,提供更自然、更吸引人和更具沉浸感的对话体验。
  • 擅长智能体能力,可以在思考和非思考模式下精确集成外部工具,在复杂的基于代理的任务中在开源模型中表现领先。
  • 支持 100 多种语言和方言,具有强大的多语言理解、推理、指令跟随和生成能力。同时Qwen3系列模型的核心亮点具备多种思考模式:
    • 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
    • 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

在这里插入图片描述

(3)Qwen3 模型训练流程

在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token,涵盖了 119 种语言和方言。为了构建这个庞大的数据集,我们不仅从网络上收集数据,还从 PDF 文档中提取信息。我们使用 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。为了增加数学和代码数据的数量,我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

预训练过程分为三个阶段。在第一阶段(S1),模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。在第二阶段(S2),我们通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。在最后阶段,我们使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。

在这里插入图片描述

为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3模型实施了一个四阶段的训练流程。该流程包括:(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,以及(4)通用强化学习。

在第一阶段,使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段,在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。最后,在第四阶段,在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。

(4)Qwen3模型相关资料

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

### DeepSeek-R1 的工作原理 #### 架构设计 DeepSeek-R1 是一款专注于通用人工智能 (AGI) 领域的大规模预训练模型。该模型基于Transformer架构构建,采用多层自注意力机制来捕捉输入序列中的长期依赖关系[^1]。 #### 数据处理流程 当接收到用户请求时,DeepSeek-R1会先对输入数据进行预处理,将其转换成适合神经网络理解的形式。具体来说,这包括分词、编码等操作,使得原始文本能够被有效地表示为向量形式供后续计算使用[^2]。 #### 推理过程 在实际运行过程中,DeepSeek-R1通过加载预先训练好的权重参数来进行前向传播运算,从而实现对于给定任务的有效预测或响应生成。值得注意的是,得益于其强大的泛化能力以及灵活配置选项的支持(如联网搜索功能),即使面对未曾见过的新颖场景,也能给出合理的结果输出。 #### 特殊特性 - **深度思考模式**:允许更长时间地分析问题并提供更加深入的回答。 - **联网搜索增强**:可以实时获取最新信息作为辅助决策依据之一,在某些特定应用场景下极大提升了系统的实用性与准确性。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") input_text = "你好,世界" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值