马斯克发布「地表最强」Grok-3，屠榜多个排行榜，暴击DeepSeek-R1

本文链接：https://blog.csdn.net/u012744245/article/details/145761690

今天，马斯克的AI初创公司xAI发布了 Grok-3 大模型，被称为“地球上最聪明的人工智能”。

在当天主题为「我们的使命是理解整个宇宙」的直播中，马斯克与该公司的三位工程师一起进行了现场演示，官宣 Grok-3 系列：

Grok-3（Beta）
Grok 3 mini：Grok-3 的轻量版本
首个推理模型 Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：击败o3-mini/DeepSeek-R1，解锁推理时计算
首个AI智能体「DeepSearch」：联网深入搜索

据介绍，Grok-3 使用了拥有约 20 万个GPU的大型数据中心进行训练，其计算能力是上一代版本 Grok-2 的 10 倍，那么实际表现又如何？

我们还是直接看 Grok-3 的基准测试成绩吧。

在多项基准测试中，Grok-3 在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

Grok-3 mini 的性能基本上领先或媲美其他闭源/开源模型。

在大模型竞技场 Chatbot Arena（LMSYS）中，早期 Grok-3 版本（chocolate）刷榜，Elo评分达 1402 分位列最高，超过了包括 DeepSeek-R1 在内的所有其他模型。

在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中，Grok-3 每个维度上都排第一。

01 Grok-3 解锁测试时计算，暴击o3-mini、DeepSeek-R1

Grok-3 支持推理能力，解锁了测试时计算（test-time compute）能力。

Grok-3 的推理模型分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。

在多项基准测试中，在数学（AIME’24）、科学（GPQA）和编码（LCB Oct-Feb）上，Grok-3 Reasoning 和 Grok-3 mini Reasoning「推理 + 测试时计算」表现均大幅超越 o3-mini（high）和 o1、DeepSeek-R1，还有谷歌 Gemi-2 Flash Thinking 等其他一众推理模型。

在 AIME 2025 数学竞赛中，Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 性能同样刷新SOTA，分别拿下了93和90分。

02 高级推理：思考（Think）模式，「Big Brain」模式

像其他推理模型一样，Grok-3 可以展示完整的思考过程以及思考时长。

进入聊天入口，直接选择「Think」模式即可。

AI 大牛 Andrej Karpathy 对 Grok-3 思考（Think）模式的评价：Grok-3 + Thinking 的水平接近 OpenAI 最强模型（每月 200 美元的 o1-pro）的最先进水平，略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。