[250503] Qwen3 重磅发布:性能比肩顶尖模型,独创“思考模式”,全系列多款模型开源!

Qwen3 正式发布:更深思考,更快行动的新一代大语言模型

Qwen 团队近日发布了其大型语言模型系列的最新成员——Qwen3。这一新系列模型在性能上取得了显著突破,旨在提供更强大的智能体验。

核心亮点

  • 性能卓越:旗舰模型 Qwen3-235B-A22B 在代码、数学及通用能力等多个基准测试中,表现出与业界顶级模型(如 DeepSeek-R1, o1, Grok-3, Gemini-2.5-Pro 等)极具竞争力的水平。值得注意的是,即使是 Qwen3-4B 这样的小型模型,其性能也能媲美上一代的 Qwen2.5-72B-Instruct。
  • 创新的“思考模式”
    • 思考模式:模型会进行逐步推理,深思熟虑后给出答案,适合处理复杂问题。
    • 非思考模式:模型提供快速、近乎即时的响应,适用于追求速度的简单问答。
    • 这种设计允许用户根据任务需求灵活控制模型的“思考”深度,平衡推理质量与成本效益。
  • 广泛的多语言支持:Qwen3 支持多达 119 种语言和方言,极大地扩展了其在全球范围内的应用潜力。
  • 增强的 Agent 能力:模型在理解和执行指令、与工具和环境交互(Agent 能力)方面进行了优化,使其能更好地完成复杂任务。

开源与可用性

Qwen 团队此次开源了多个模型权重,包括:

  • 两个 MoE 模型
    • Qwen3-235B-A22B (总参数 2350亿+,激活参数 220亿+)
    • Qwen3-30B-A3B (总参数约 300亿,激活参数 30亿)
  • 六个 Dense 模型
    • Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6B

这些开源模型均遵循 Apache 2.0 许可证

用户可以通过以下途径体验和使用 Qwen3:

  • 在线体验:访问 Qwen Chat 网页版或手机 APP。
  • 模型下载:在 Hugging Face, ModelScope, Kaggle 等平台获取模型权重。
  • 本地/部署:支持 Ollama, LMStudio, vLLM, SGLang 等多种流行框架进行本地运行或服务部署。

技术背景

Qwen3 的强大能力源于其在预训练和后训练阶段的显著改进:

  • 预训练:使用了近 36 万亿 token 的海量数据(覆盖 119 种语言),数据来源包括网页、PDF 文档以及利用 Qwen2.5 系列专家模型合成的高质量数学和代码数据。
  • 后训练:通过多阶段的微调和强化学习,特别是针对长思维链推理和通用能力的提升,最终实现了兼具深度思考和快速响应能力的混合模型。

未来展望

Qwen3 的发布是通往通用人工智能(AGI)道路上的重要一步。未来,研发团队计划在模型架构、数据规模、上下文长度、多模态能力以及利用环境反馈进行长周期推理等方面持续优化,致力于从训练“模型”转向训练更强大的“Agent”,为用户的工作和生活带来更有意义的进步。

来源:

https://qwenlm.github.io/zh/blog/qwen3

更多内容请查阅 : blog-250503

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值