【AGI-Eval评测报告】深度拆解 Qwen3,刷榜之外,更需构建全面评测新体系

前几天,阿里巴巴正式开源新一代通义千问模型 Qwen3。上期我们从创作、分析、操作和问答四方面进行了任务实测,本期聚焦其通用能力与应用场景评测。OpenAI 员工、姚班校友姚顺雨发布文章《大模型下半场是产品的游戏,做研究也要有产品思维》,人工智能的重点,已经从“解决问题”转向了“定义问题”,评估或许比训练更重要。模型评测中,应摒弃 “刷榜” 思维,以全面评测视角牵引训练反映模型真实性能,进而推动模型优化。

Image

目录:

1.评测核心结论

2.通用评测结果

3.应用场景评测结果

4.告别刷榜,构建全面评测新体系

1.评测核心结论

Qwen3 模型支持思考模式和非思考模式,可通过参数实现两种模式的切换。Qwen3-235B-A22B的具体实力如何,AGI-Eval 大模型评测社区第一时间做了模型评测,客观评测结论报告如下:

  • 通用能力上,Qwen3-235B-A22B 在 Qwen3 此次更新模型系列中表现最强。其中Thinking 模式略低于 DeepSeek-R1,高于 QwQ-32B;非 Thinking模式落后于 DeepSeek-V3-0324。同时 Qwen3 系列在 SimpleQA 上表现相对较弱,存在一定幻觉风险。

  • 在输出长度上,推理任务中,Qwen3-235B-A22B 的平均token为3882,输出长度较 DeepSeek-R1 (平均token为2977)更长,但相比 QwQ-32B(平均token为4596) 有缩减。

  • 应用场景上,Qwen3-32B、Qwen3-235B-A22B整体处于同一水位,整体落后QwQ-32B~3.4-3.6pp、落后DeepSeek-R1~10.3-10.4pp。

Image

2.通用评测结果

评测基于自建的通用能力评测集、公开评测集

自建评测集由主观、客观评测两部分构成,覆盖交互能力、推理、知识储备等各能力;

公开评测集均为客观评测,选取代码、复杂推理、学科等各类有影响力和区分度的评测集,并对其进行质检修正,采用更合理的评测方式(如AIME系列评测集因本身波动较大,采用跑10次结果取均值的方式计算指标,IFEval_Pro为社区基于IFEval修正改造后的评测集)。

2.1 内部评测结果

Qwen3-235B-A22B 在 Thinking 模式下客观准确率为0.7469,略低于 DeepSeek-R1 的0.7660,高于 QwQ-32B 的0.6995;而 Qwen3-235B-A22B 非Thinking 模式与 DeepSeek-V3-0324差距较大(约4pp)。 

Image

此外,从输出长度上来看,在推理任务上,Qwen3-235B-A22B 的平均token为3882,输出长度较 DeepSeek-R1(平均token为2977)更长,但相比 QwQ-32B(平均token为4596) 有缩减。

2.2 公开评测结果

Qwen3 系列在 SimpleQA 上表现相对较弱,存在一定的幻觉风险。

Image

2.3 基座模型评测

  • Qwen3 系列基座,最大尺寸模型未开源,仅开源 Qwen3-30B-A3B-base、Qwen3-14B-Base 及以下尺寸。

  • 在通用基座评测集上,Qwen3-30B-A3B-base 和 Qwen3-14B-Base 准确率与近期开源的Llama4-Maverick-17B-128E-基座仍有较大差距。

Image

3.应用场景评测结果

我们来看在代码、商品和服务零售、生活百科3个典型应用场景的客观评测集。Qwen3-32B、Qwen3-235B-A22B(开启Thinking模式,下同)大幅落后于标杆推理模型 DeepSeek-R1,甚至明显落后于自家上一代推理模型 QwQ-32B。

3.1 应用场景整体评测结果

Qwen3-32B 和 Qwen3-235B-A22B 在开启 Thinking 模式下,整体处于同一水位,对比 QwQ-32B 落后~3.4-3.6pp,对比 DeepSeek-R1 落后~10.3-10.4pp。

  • 对比 QwQ-32B,Qwen3-32B 和 Qwen3-235B-A22B 整体落后~3.4-3.6pp,在代码场景上差距最大(落后~7.7-9.3pp),在商品和服务零售场景上差距为4.2-5.0pp,在生活百科场景上领先1.1-4.0pp;

Image

△推理模型的对比开启了 Thinking 模式

  • 对比 DeepSeek-R1,Qwen3-32B 和 Qwen3-235B-A22B 整体落后~10.3-10.4pp,在代码、商品和服务零售、生活服务场景上均落后~10pp。

Image

Qwen3系列内部来看:

  • Qwen3 系列的相同模型,开启 Thinking 模式比不开启 Thinking 模式的指标整体高8.0-8.6pp(如下表)。

Image

分场景来看:

  • Qwen3系列在代码场景整体表现较差,落后于 QwQ-32B、DeepSeek-R1 至少7.7pp。其中,Qwen3-32B、Qwen3-235B-A22B在指令合并场景上表现尚可,落后QwQ-32B 0.6-1.2pp;在代码纠错、补全、生成场景上大幅落后QwQ-32B 约7.0-20.2pp;

  • Qwen3系列在商品和服务零售场景上整体表现较差,落后于 QwQ-32B、DeepSeek-R1至少 4.2pp。其中,Qwen3-32B、Qwen3-235B-A22B在需要逻辑推理的评测集上表现较差(如在搜索应用场景相关评测集上,易将与用户搜索词/需求不相关的结果判定为符合需求,或错判搜索词和改写词的上/下位词关系);在商品信息提取这类简单信息处理任务上表现较好;

  • Qwen3系列在生活百科场景整体表现不错,领先QwQ-32B约1.1-4.0pp,但距离DeepSeek-R1还有至少 8.5pp差距。其中,Qwen3-32B、Qwen3-235B-A22B在需要逻辑推理的地理位置问答评测集上表现较差,在节日食物、菜系等生活知识评测集上表现较好。

咱们详细看看 Qwen3 系列重点宣传的代码场景指标。对比 Qwen3-32B、DeepSeek-R1,Qwen3 系列差距明显,更易出现边界情况考虑不全等问题。

Image

Image

这里为大家展示 Qwen3-32B 典型错误 case,在下图案例中,Qwen3 没有考虑到分母为0的边界情况,导致无法通过单元测试。

Image

△左侧为QwQ-32B,右侧为Qwen3-32B

4.告别刷榜

构建全面评测新体系

在人工智能技术高速迭代的当下,AI 开发者群体正面临一个普遍的认知误区:将模型在特定测试中的表现误认为真正的智能。这一迷思的产生,与行业内盛行的 “刷榜” 风气紧密相关。以新一代语言模型 Qwen3 为例,围绕 Qwen3 的讨论并不总是全面和客观的,部分评价停留在表面,聚焦于模型在榜单上的排名,而忽视了背后的深层逻辑。


在模型训练的过程中,全面的评测牵引至关重要, “刷榜” 本质上是一种通过针对性训练获取短期效应的手段。开发者为提升模型在特定测试中的分数,没有从足够综合的角度来评估相关因素,围绕测试任务的规则和数据特点进行优化,使模型掌握应对测试的 “伪能力”。这种 “伪能力” 与人类智能在复杂现实场景中展现出的适应性、创造力存在本质差异,难以模拟真实世界中错综复杂的应用情境,无法真实反映 Qwen3 在实际应用中的能力与潜力。

Qwen3 只关注了 AIME 等高难度公开评测,引入幻觉风险,在实际应用场景中,并不能满足用户的真实需求。将其与推理系模型标杆 DeepSeek - R1 对比,其间差距显著;复与该团队上一代更小尺寸的模型 QwQ-32B 相较,部分真实应用场景竟尚不及之。

因此,在人工智能模型的评测中需摒弃刷榜思维。相较于 “刷榜” 带来的短期表面成绩,深入的牵引训练能够帮助我们发现模型的潜力,识别其在长远发展中的优势与不足。一个全面的评测体系需要涵盖语义理解、生成质量、算法推理、实际任务执行多个维度,还要考量模型在未知领域的迁移能力、对模糊信息的处理智慧、以及长期交互中的稳定性。唯有坚持全面评测视角,以真实场景的综合表现为导向进行牵引训练,才能反映模型的真实性能,推动其持续优化,真正满足用户需求 。

未来 Qwen 系列模型,不知道会给大家带来什么样的新的颠覆和创新,我们AGI-Eval大模型评测社区也会持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路,也期待更多人加入我们。

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息,记得关注我们!

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。

14篇原创内容

公众号

往期回顾

1.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队

2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

3.【AGI-Eval实测速报】Qwen3 四大维度开箱评测,模型实测效果大放送!

同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性发现更多不一样的视角,提出问题才有机会解决问题。

<think>好的,我现在要回答用户关于AGI-Eval大语言模型评测方案的问题。首先,用户提到了AGI-Eval,但根据提供的引用内容,正确的名称应该是AGIEval,由微软提出的中英文评测数据集。我要确认引用中的信息,确保准确性。 首先,查阅用户提供的引用内容。引用[3]提到:“AGIEval:微软 中英文评测数据集内容人类与国外主流模型差异”,这说明AGIEval的主要目的是评估模型在人类考试任务中的表现,尤其是中英文环境下的能力。要详细说明评测标准、任务类型和评测方法。 接下来,用户询问评测标准的具体方案。根据引用[3],AGIEval聚焦于人类考试任务,比如司法考试、数学竞赛等,这可能包括多项选择题、解答题等题型。评测标准可能包括准确率、推理能力、多步问题解决能力等。同时,引用[1]提到主观评测可能使用人工打分或裁判模型,但AGIEval作为知识型评测可能多使用客观指标。 要确保回答的结构清晰,分点说明评测目标、任务类型、评测方法、数据集结构、结果呈现和挑战分析。同时,结合引用中的信息,比如引用[4]提到DeepSeek在专业领域的发展,可能对比说明评测对实际应用的影响。 最后,生成相关问题,要围绕AGIEval的应用、对比其他评测标准、如何实施等。确保问题相关且引导用户进一步探索。 要注意LaTeX格式的正确使用,所有行内数学表达式用$...$,独立公式用$$...$$,但当前回答中可能涉及较少数学内容,检查是否有必要使用。另外,引用标识要正确添加在相关段落末尾,如[^3]。 总结回答结构: 1. 评测目标 2. 任务类型 3. 评测方法 4. 数据集结构 5. 结果呈现 6. 挑战与局限 确保每个部分都有引用支持,并自然添加引用标识。最后生成相关问题,如与其他评测的差异、如何设计评测任务、实际应用影响等。</think>### AGI-EvalAGIEval)大语言模型评测方案解析 AGI-Eval(正确名称为**AGIEval**)是由微软提出的面向大语言模型的评测框架,专注于考察模型在人类考试任务中的表现,其评测方案结合了知识广度和复杂推理能力。以下是核心评测标准与方案设计: --- #### 1. **评测目标** - **核心能力验证**:评估模型在接近人类考试场景下的知识掌握程度(如数学、法律、编程等)和逻辑推理能力[^3]。 - **跨语言适配**:同时支持中英文试题,检验模型在不同语言环境下的表现一致性。 --- #### 2. **任务类型** - **学科覆盖**:包含法学考试(如中国司法考试)、数学竞赛(如AMC)、编程测试(如LeetCode题目)等专业领域[^3]。 - **题型设计**:以**多项选择题**和**开放式解答题**为主,例如: - 选择题示例: $$P(\text{正确选项}|题目文本, 选项列表) = \arg\max_{i} \text{模型置信度}(选项_i)$$ - 解答题示例:要求模型生成完整解题步骤并给出最终答案。 --- #### 3. **评测方法** - **客观指标**:对选择题使用准确率(Accuracy)和混淆矩阵分析,对解答题通过规则匹配或专家评分判断正确性。 - **多步推理评估**:针对复杂问题拆解中间步骤,验证模型是否具备人类式的渐进推理能力[^1]。 - **基线对比**:将模型表现与人类考生平均水平及GPT-4、PaLM等主流模型进行横向对比。 --- #### 4. **数据集结构** - **数据来源**:从真实考试题库中抽取题目,确保难度分布和学科均衡性。 - **数据量级**:涵盖数万道题目,覆盖STEM、社会科学、语言理解等多个领域[^3]。 - **质量控制**:通过专家审核排除歧义题目,并标注题目知识点标签(如“微积分”“合同法”)。 --- #### 5. **结果呈现** - **分层报告**:按学科、题型、难度等级输出细分结果,例如: - **数学能力**: 代数(85%)、几何(72%) - **语言理解**: 中文语义推理(91%)、英文长文本归纳(83%) - **可视化对比**:通过雷达图展示模型在不同领域的表现与人类基准的差距。 --- #### 6. **挑战与局限** - **主观题评分成本**:解答题依赖人工或裁判模型打分,可能引入偏差[^1]。 - **动态适应性**:考试题库速度快,持续扩展数据集以反映最知识[^4]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值