炸裂,就在刚刚,马斯克在X平台上发布了史上最强大模型Gork 3,一经发出,就进行了各种霸榜,甩了隔壁Close模型整整一条街。
话不多说,先给大家看一下它秀的肌肉。
Gork 3直接斩获了Chatbot Arena第一的宝座,得分更是达到了史无前例的最高——1400分,超越了Gemini 2.0Pro、Deepseek R1、满血版o1等顶尖模型。
这个榜单其实有点来头,Arena是由 LMSYS 推出的一个全球大语言模型性能测试平台榜单,它通过匿名盲测的方式让用户对不同模型的回答进行投票,从而生成实时排名。
换句话说,这个排名是大家一票一票选出来的。
此次马斯克一共是发了两套模型,分别是通用版本(不会思考)的 Grok 3
和推理版本的Grok 3 Reasoning,每个模型都有mini版,从测试的成绩来看,这俩模型都遥遥领先。
Grok 3 Reasoning在数学、科学、编程等领域的成绩超越了o3-mini-hight、o1和Deepseek R1,而且连mini版的得分也非常高,简直离谱。
注:柱状图顶部浅色拼接部分意思是给模型足够长的时间和算力,模型的最好成绩。
通用版Gork 3和Gork 3mini在数学、科学、编程等领域超越了众多通用模型,比如大家熟知的Gemini 2.0 Pro、Deepseek-V3和Claude 3.5 Sonne。
除了2个 Grok 3
模型,xAI这次还一起发布了一个 AI Agent——Deep Research。
没错,就是和OpenAI刚刚发布的深度推理功能一样,X ai的Deep Research能够将复杂的查询分解为多个步骤,通过联网搜索、分析文档、综合信息,最终生成结构化的报告。
从演示的效果看,一点都不逊OpenAI。
最重要的是它可以输出最原始的详细的思考过程,就和 DeepSeek-R1一样。
最后就是大家关心如何使用的问题,据悉X的Premium+会员稍后就能用上 Grok-3,刚刚我去看了一样X会员的费用,需要40美金,后续Gork还会推出专门的会员。
另外,Grok 3将在数周后对企业用户提供API接入方案,其中也将包含 DeepSearch。
并且,xAI计划在Grok 3稳定并逐步成熟后,将Grok-2的代码和权重开源。
此次Grok 3的最大亮点在于引入了“思维链”推理能力,能够像人类一样逐步处理复杂任务,类似于Deepseek的思考方式。
此外,Grok 3的开发借助了10万块英伟达H100芯片,其计算量是前代Grok 2的十倍。
同时,Grok 3采用了合成数据集,并结合自我纠错机制和强化学习等先进方法,以提升其推理能力、编程能力和多模态性能。
通过这些技术手段,Grok-3现在一越成为目前表现最好的模型。
在Gork-3还未发布之前,马斯克就全网叫嚣Gork-3的推理能力优于现有所有模型,现在看来,他并未夸大,那么如此,某些Close模型是不是该慌了......
相关内容:如何有效解决海外支付难题