基于同样的基座:qwen2.5-32b-base,qwen官方先后推出了常规模型qwen2.5-32b-instruct(下面简称instruct模型)和推理模型qwq-32b-preview/qwq-32b(下面简称qwq)。众所周知,推理模型擅长推理,我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型,那其他维度呢?
我们接下来通过全方位的评测一探究竟。评测包括8大领域,300多个细分维度。
qwen2.5-32b-instruct | qwq-32b | 变化 | |
总分 | 68.51 | 77.18 | 13% |
医疗 | 71.60 | 76.45 | 7% |
教育 | 80.02 | 85.90 | 7% |
金融 | 71.83 | 78.33 | 9% |
法律 | 50.70 | 60.80 | 20% |
行政公务 | 64.50 | 82.20 | 27% |
心理健康 | 57.75 | 63.00 | 9% |
推理与数学计算 | 70.98 | 85.58 | 21% |
语言与指令遵从 | 80.73 | 85.18 | 6% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
公众号:大模型评测EasyLLM
从上表可知:
-
相比instruct模型,qwq总分提高了13%,十分可观。
-
最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。
-
“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。
另外,我们通过对比qwq及其早期preview版本,也能得出类似以上的结论,数据如下:
qwq-32b-preview | qwq-32b | 变化 | |
总分 | 71.43 | 77.18 | 8% |
医疗 | 73.54 | 76.45 | 4% |
教育 | 83.38 | 85.90 | 3% |
金融 | 74.32 | 78.33 | 5% |
法律 | 53.57 | 60.80 | 13% |
行政公务 | 72.00 | 82.20 | 14% |
心理健康 | 59.88 | 63.00 | 5% |
推理与数学计算 | 75.80 | 85.58 | 13% |
语言与指令遵从 | 78.92 | 85.18 | 8% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
公众号:大模型评测EasyLLM
关于(公众号)大模型评测EasyLLM:https://easyllm.site
-
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度
-
最新——每周更新大模型排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯
-
错题本——百万级大模型错题本
-
免费——为您的私有模型提供免费的全方位评测服务,欢迎私信
公众号:大模型评测EasyLLM