大模型评测【开源篇】Qwen大模型｜同样的基座，推理模型Qwq相比常规模型Qwen-instruct，到底哪里更强？

easyllm

已于 2025-04-11 14:50:14 修改

阅读量1.2k

点赞数 16

分类专栏：大模型评测【开源篇】文章标签： AI大模型评测大模型评测大模型实测横评 qwen大模型通义大模型评测开源模型评测 Qwen大模型评测

于 2025-04-11 11:21:03 首次发布

本文链接：https://blog.csdn.net/easyllm/article/details/147139457

版权

大模型评测【开源篇】专栏收录该内容

8 篇文章

订阅专栏

基于同样的基座：qwen2.5-32b-base，qwen官方先后推出了常规模型qwen2.5-32b-instruct（下面简称instruct模型）和推理模型qwq-32b-preview/qwq-32b（下面简称qwq）。众所周知，推理模型擅长推理，我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型，那其他维度呢？

我们接下来通过全方位的评测一探究竟。评测包括8大领域，300多个细分维度。

	qwen2.5-32b-instruct	qwq-32b	变化
总分	68.51	77.18	13%
医疗	71.60	76.45	7%
教育	80.02	85.90	7%
金融	71.83	78.33	9%
法律	50.70	60.80	20%
行政公务	64.50	82.20	27%
心理健康	57.75	63.00	9%
推理与数学计算	70.98	85.58	21%
语言与指令遵从	80.73	85.18	6%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

公众号：大模型评测EasyLLM

从上表可知：

相比instruct模型，qwq总分提高了13%，十分可观。
最突出的改进，除了“推理与数学计算”提升21%外，“法律”及“行政公务”都有大幅提高，分别达到20%、27%。
“推理与数学计算”方面的改进在我们预料之中，然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现，医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度，而法律/行政公务（特别是后者的行测题）更依赖于逻辑推理能力。

另外，我们通过对比qwq及其早期preview版本，也能得出类似以上的结论，数据如下：

	qwq-32b-preview	qwq-32b	变化
总分	71.43	77.18	8%
医疗	73.54	76.45	4%
教育	83.38	85.90	3%
金融	74.32	78.33	5%
法律	53.57	60.80	13%
行政公务	72.00	82.20	14%
心理健康	59.88	63.00	5%
推理与数学计算	75.80	85.58	13%
语言与指令遵从	78.92	85.18	8%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

公众号：大模型评测EasyLLM

关于（公众号）大模型评测EasyLLM：https://easyllm.site

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度
最新——每周更新大模型排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯
错题本——百万级大模型错题本
免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

公众号：大模型评测EasyLLM