DeepSeek和OpenAI、xAI、Anthropic哪家强？FlagEval智源评测

智源研究院官方账号

于 2025-03-05 13:47:01 发布

阅读量617

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/eagleofstar/article/details/146041278

版权

2025年伊始，多家顶尖大模型企业如DeepSeek、xAI、OpenAI和Anthropic相继推出了革新性产品。其中，DeepSeek-R1、Grok3、OpenAI的o1、o3和GPT-4.5-preview、Claude-3.7-sonnet等模型引发了业界的广泛关注和热烈讨论。

智源研究院FlagEval大模型评测平台基于长期进行大模型评估的专业视角和严谨的评估标准，对上述前沿模型开展了全面而深入的对比评测。

本次评测聚焦大模型的两大核心能力：语言处理能力和图文理解能力。经过精心设计的测试用例和严格的评估流程，深度剖析了模型在实际应用场景中的性能表现，揭示其优势、局限性以及潜在的应用前景。本次评测的主要目的是剖析模型之间的性能差异，不涉及其他方面。为保证评测结果的准确性，本次评测均采用人工评价。智源希望此次及时、专业的评估能为研究人员、开发者以及大模型用户提供宝贵的依据和参考。

值得说明的是，xAI的Grok3系列、OpenAI的GPT-4o和GPT-4.5系列、Anthropic的Claude3.5 & 3.7系列以及Google的Gemini 2.0系列模型是多模态模型，不仅精通语言对话，还同时能够处理多模态理解任务。它们通过同一个模型，出色地展现语言能力和多模态理解能力，其技术难度比纯语言模型更上一个台阶。

GPT-4.5在评估中，以非长推理（非深度思考模式）的一般模型，在语言模型的性能中，达到了长推理（深度思考模式）的模型性能，也是十分难得。

另外，本次评测采用的是开源的DeepSeek-R1和DeepSeek-V3的满血版。

一、语言模态的能力评估

本次进行大模型语言模态能力评估的大模型一共13个，其中包括

5个深度思考模式（长推理）的大模型：

Grok3-beta+Think、o1、o3-mini-high、Claude-3.7-sonnet+thinking、DeepSeek-R1，

8个非深度思考模式（非长推理）的大模型：

GPT4.5-preview、Grok3-beta、Gemini-2.0-flash-exp、Qwen2.5-max、DeepSeek-V3、Claude-3.7-sonnet、Claude-3.5-sonnet、Chatgpt-4o-latest

由于这两类模型的侧重点不同，用户的使用成本也存在差异，许多厂商将它们分别提供给用户。因此，本次评测对这两类模型进行了区分比较。

（1）语言模态的评测数据说明

A. 评测任务的选择 为了避免公开评测集的数据污染和任务过于简单，本次评测选取了几项具有挑战性且用户使用频率较高的任务类别进行评测。这些任务不仅能够有效区分模型的性能，还能反映用户在实际使用中的需求。

B. 评测方式与数据量 由于评测题目的复杂性较高，为了保证评测质量，本次语言模态评测全部采用人工评测，其中中英文测试样例的比例分别为80%和20%。为充分反映各模型的表现，本次评测任务选取相对具有挑战性和用户使用频率较高的类别，具体如下：

类别	解释
数学	依据数学计算规则和定理，使用抽象符号进行相关运算
代码	编写、理解和优化计算机程序代码
数据处理	进行数据的整理、处理、解析、解释和呈现
文案处理	根据要求进行文本生成、抽取、概括总结及修改润色

(2) 评测结果

从本次评测观察来看，深度思考模式下的模型整体表现优于一般模式的模型，特别是在数学和数据处理方面优势明显，具体表现如下：

数学与数据处理：xAI的Grok3-beta+Think、OpenAI的o1和o3-mini-high表现尤为突出。
- o3-mini-high 和 Grok3-beta+Think在数学、代码和数据处理等需要较强推理能力的任务上表现强势，令人印象深刻
- DeepSeek-R1在数据处理方面表现优异，超越了其他所有模型。
文案处理：在文案生成和处理任务上，o3-mini-high、Claude-3.7-sonnet和Gemini-2.0-flash-exp表现更为出色。相比之下，Grok3-beta+Think和DeepSeek-R1由于回复较为冗长，在文案处理类任务上的得分相对较低。

详细维度评分

注：本次评测分数计算以得分率作为分数指标

模型	是否为深度思考模式	数学	代码	数据处理	文案处理	总分
o3-mini-high（web端）	是	93.3	100	80	85	91
Grok3-beta+Think(web端)	是	93.3	100	80	80	90
o1	是	93.3	93.3	80	80	88
Claude-3.7-sonnet -20250219+thinking	是	80	90	80	75	82
DeepSeek-R1 (开源满血版)	是	86.6	83.3	85	70	82
Gpt-4.5-preview-2025-02-27	否	76.6	93.3	75	80	82
Claude-3.7-sonnet-20250219	否	76.6	96.6	55	85	80
Gemini-2.0-flash-exp-02-05	否	75	93.3	55	85	79.5
Grok3-beta (web 端)	否	70	93.3	60	70	76
Claude-3.5-sonnet-20241022	否	63.3	96.6	55	75	74
Qwen2.5-max-latest	否	62.5	96.6	50	70	71.8
Chatgpt-4o-latest	否	63.3	96.6	50	68.4	71.7
DeepSeek-V3（开源版）	否	73.3	76.6	55	75	71

注：如未特殊说明则表示是通过调用官方API的方式获取的推理结果。

(3) 分析洞察

在本次评测中，智源还发现深度推理模型的工作方式会影响模型在特定任务中的表现。因为推理模型往往会采用详细的回复带给用户更多的帮助，所以其回复往往比较长，Grok3-beta+thinking表现尤为突出。这使得推理模型难以满足有字数约束的生成任务、总结概括等文字任务要求，从而拖累其在文案处理任务上的表现。本次评测的推理模型，除o3-mini-high外，Deepseek-R1、o1、Claude-3.7-sonnet+thinking、Grok3-beta+thinking在文案处理任务得分均不高。

二、多模态视觉理解能力

近期由OpenAI推出的GPT4.5以及由xAI推出的Grok3都是多模态模型，兼具了语言和视觉的跨模态能力。所以我们也对全球六个处于第一梯队的多模态大模型进行进一步评估比较。本次评测仅选取国外包括OpenAI、Google、xAI和Anthropic的大模型，因为国内现有模型与之仍有差距（可参考2024年12月19日的智源评测结果https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=vqa）

(1) 评测数据说明

A. 通用能力评测数据一中文数据为主，包含少量英文数据，整体评测类别如下：

类别	解释
感知	对图像中形状、颜色、纹理等信息的感知。
基本分析	对图片中基本元素和信息的识别，如文字、地点、名人等
理解	对图片中元素和信息含义的理解，如场景、抽象概念等
推理	对图片中展示信息的进一步推理。
其他	无法归入上述类别。

B. 本次同时进行了中文K12学科评估，数据均匀覆盖语文、英语、数学、化学、物理、生物，选用的题目中均包含图表信息，要求模型能够结合图表和文本来解答问题。

(2) 评测结果及分析

从目前的评测结果来看，GPT-4.5-preview和Gemini-2.0-pro-exp是当前多模态能力最强的模型，而Grok3-beta和Claude-3.7-sonnet在全球多模态模型比较中表现相对较弱。其中GPT-4.5-preview在基本分析和理解能力方面表现突出，但在推理、感知及其他能力维度上存在短板；而Gemini-2.0-pro-exp则在推理、感知及其他能力维度上表现优异，但在基本分析和理解能力方面存在一定缺陷。相比之下，Grok3-beta在基本分析和理解能力上表现较差，尤其是对图片中的文字（特别是中文）识别错误率较高，且在处理物体间对应关系（如图表与坐标、人与环境中物体的对应）等复杂任务时错误频发；Claude-3.7-sonnet则在颜色识别和数量判断方面问题较多，且与上一版本Claude-3.5-Sonnet相比，多模态能力略有下降。

在中文K12学科评测中，Gemini-2.0-pro-exp和GPT-4.5-preview表现最佳，能够较好地结合图表和文本信息解答问题。

A. 通用视觉理解能力评测结果

模型	感知	基本分析	理解	推理	其他	总分
GPT-4.5-preview-2025-02-27	71.4	76.8	86.2	63.6	20	76.2
Gemini-2.0-pro-exp-02-05	85.7	73.10	74.1	77.2	60	74.5
Claude-3.5-Sonnet-20241022	78.6	69.5	67.2	72.7	60	69.6
Claude-3.7-sonnet-20250219	78.5	63.4	67.2	77.2	60	67.4
GPT-4o-20241120	78.6	68.3	70.7	54.5	40	67.4
Grok3-beta（web端）	71.4	59.7	56.8	59	60	59.7

注：本次评测分数计算以得分率作为分数指标

B. K12学科评测结果

模型	得分率
Gemini-2.0-pro-exp-02-05	75.9
GPT-4.5-preview-2025-02-27	73.4
Claude-3.5-Sonnet-20241022	67.6
Grok3-bata（web端）	65.0
Claude-3.7-sonnet-20250219	64.8
GPT-4o-20240806	58.1

注：本次评测分数计算以得分率作为分数指标

局限性说明：

评测局限性：
1. 本次评测仅为初步测试，仅针对语言能力和视觉理解能力的个别维度进行评估。
2. 由于各模型的访问方式存在差异，评测结果可能存在一定偏差。
未测试模型：
1. 由于时间和资源限制，尚未在Grok3-beta+Think和OpenAI的o1上测试视觉理解能力。