Qwen3 的混合推理(hybrid inference)架构允许在同一模型中,根据任务需要,在两种“思考模式”(thinking modes)之间切换:
-
非思考模式(Non-thinking mode,也称“快思考”/Fast thinking)
-
思考模式(Thinking mode,也称“慢思考”/Slow thinking)
-
在此模式下,模型内部进行多步、深度的链式推理(chain-of-thought),可能产生中间步骤或思路展示,再给出最终答案。
-
适合复杂数学推导、代码调试、逻辑分析等需要“展示过程”或严谨论证的场景。
-
优势:推理更深入、准确率更高,能处理高难度任务。
-
引用:Alibaba CTO 周靖人表示,Qwen3 可根据不同问题选择“fast, slow thinking” Pandaily | Kevin Zhou | Substack;Hands-on 实践文章详细说明了 slow thinking 模式下的 step-by-step 分析能力 Milvus。
-
切换机制与应用
-
动态切换:用户或上层框架可在调用时指定模式(如“/think”命令触发思考模式),模型内部则根据模式分配计算资源与激活专家(Mixture-of-Experts)路径。
-
成本/效能权衡:非思考模式节省显存与算力,可在低端 GPU 或边缘设备上部署;思考模式则为复杂任务提供 SOTA 级性能。
-
生态兼容:Qwen3 已在多种推理引擎(vLLM、Ollama、MUSA 等)上验证,国产 GPU 厂商亦完成适配测试,确保两种模式均能高效运行 MediumReddit。
小结:Qwen3 的“两种思考模式”正是“快思考”(Non-thinking/Fast thinking)和“慢思考”(Thinking/Slow thinking)。前者追求极致速度,后者追求推理深度,用户可根据场景灵活选用,从而在效率与准确性之间取得最佳平衡。