摘要
在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列旨在提升性能、效率和多语言能力的大型语言模型(LLMs),涵盖稠密和混合专家(MoE)架构,参数规模从6亿到2350亿不等。Qwen3的关键创新在于将思考模式(用于复杂多步推理)和非思考模式(用于快速上下文驱动响应)整合到统一框架中,无需在不同模型(如聊天优化模型GPT-4o和专用推理模型QwQ32B)之间切换,可根据用户查询或聊天模板动态切换模式。同时,Qwen3引入思考预算机制,允许用户在推理时自适应分配计算资源,平衡任务复杂度与延迟。此外,通过利用旗舰模型的知识,我们显著减少了构建小模型所需的计算资源,同时确保其性能具有竞争力。实验评估表明,Qwen3在代码生成、数学推理、代理任务等多种基准测试中均达到先进水平,可与更大规模的MoE模型和专有模型媲美。与前代Qwen2.5相比,Qwen3的多语言支持从29种扩展至119种语言和方言,通过增强跨语言理解和生成能力提升了全球可及性。为促进可复现性和社区驱动的研发,所有Qwen3模型均在Apache 2.0许可下开源。
1 引言
实现通用人工智能