Gork 3来袭！历史第一，1400分碾压o3-mini和Deepseek

最新推荐文章于 2025-04-12 12:32:45 发布

爱吃的小肥羊

最新推荐文章于 2025-04-12 12:32:45 发布

阅读量3.6k

点赞数 15

文章标签：人工智能 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_87374428/article/details/145707295

版权

炸裂，就在刚刚，马斯克在X平台上发布了史上最强大模型Gork 3，一经发出，就进行了各种霸榜，甩了隔壁Close模型整整一条街。

话不多说，先给大家看一下它秀的肌肉。

Gork 3直接斩获了Chatbot Arena第一的宝座，得分更是达到了史无前例的最高——1400分，超越了Gemini 2.0Pro、Deepseek R1、满血版o1等顶尖模型。

这个榜单其实有点来头，Arena是由 LMSYS 推出的一个全球大语言模型性能测试平台榜单，它通过匿名盲测的方式让用户对不同模型的回答进行投票，从而生成实时排名。

换句话说，这个排名是大家一票一票选出来的。

此次马斯克一共是发了两套模型，分别是通用版本（不会思考）的 Grok 3和推理版本的Grok 3 Reasoning，每个模型都有mini版，从测试的成绩来看，这俩模型都遥遥领先。

Grok 3 Reasoning在数学、科学、编程等领域的成绩超越了o3-mini-hight、o1和Deepseek R1，而且连mini版的得分也非常高，简直离谱。

注：柱状图顶部浅色拼接部分意思是给模型足够长的时间和算力，模型的最好成绩。

通用版Gork 3和Gork 3mini在数学、科学、编程等领域超越了众多通用模型，比如大家熟知的Gemini 2.0 Pro、Deepseek-V3和Claude 3.5 Sonne。

除了2个 Grok 3 模型，xAI这次还一起发布了一个 AI Agent——Deep Research。

没错，就是和OpenAI刚刚发布的深度推理功能一样，X ai的Deep Research能够将复杂的查询分解为多个步骤，通过联网搜索、分析文档、综合信息，最终生成结构化的报告。

从演示的效果看，一点都不逊OpenAI。

最重要的是它可以输出最原始的详细的思考过程，就和 DeepSeek-R1一样。

最后就是大家关心如何使用的问题，据悉X的Premium+会员稍后就能用上 Grok-3，刚刚我去看了一样X会员的费用，需要40美金，后续Gork还会推出专门的会员。

附上X订阅教程

另外，Grok 3将在数周后对企业用户提供API接入方案，其中也将包含 DeepSearch。

并且，xAI计划在Grok 3稳定并逐步成熟后，将Grok-2的代码和权重开源。

此次Grok 3的最大亮点在于引入了“思维链”推理能力，能够像人类一样逐步处理复杂任务，类似于Deepseek的思考方式。

此外，Grok 3的开发借助了10万块英伟达H100芯片，其计算量是前代Grok 2的十倍。

同时，Grok 3采用了合成数据集，并结合自我纠错机制和强化学习等先进方法，以提升其推理能力、编程能力和多模态性能。

通过这些技术手段，Grok-3现在一越成为目前表现最好的模型。

在Gork-3还未发布之前，马斯克就全网叫嚣Gork-3的推理能力优于现有所有模型，现在看来，他并未夸大，那么如此，某些Close模型是不是该慌了......

相关内容：如何有效解决海外支付难题

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。