Gork 3来袭!历史第一,1400分碾压o3-mini和Deepseek

炸裂,就在刚刚,马斯克在X平台上发布了史上最强大模型Gork 3,一经发出,就进行了各种霸榜,甩了隔壁Close模型整整一条街。

话不多说,先给大家看一下它秀的肌肉。

Gork 3直接斩获了Chatbot Arena第一的宝座,得分更是达到了史无前例的最高——1400分,超越了Gemini 2.0Pro、Deepseek R1、满血版o1等顶尖模型。

这个榜单其实有点来头,Arena是由 LMSYS 推出的一个全球大语言模型性能测试平台榜单,它通过匿名盲测的方式让用户对不同模型的回答进行投票,从而生成实时排名。

换句话说,这个排名是大家一票一票选出来的。

此次马斯克一共是发了两套模型,分别是通用版本(不会思考)的 Grok 3和推理版本的Grok 3 Reasoning,每个模型都有mini版,从测试的成绩来看,这俩模型都遥遥领先。

Grok 3 Reasoning在数学、科学、编程等领域的成绩超越了o3-mini-hight、o1和Deepseek R1,而且连mini版的得分也非常高,简直离谱。

注:柱状图顶部浅色拼接部分意思是给模型足够长的时间和算力,模型的最好成绩。

通用版Gork 3和Gork 3mini在数学、科学、编程等领域超越了众多通用模型,比如大家熟知的Gemini 2.0 Pro、Deepseek-V3和Claude 3.5 Sonne。

除了2个 Grok 3 模型,xAI这次还一起发布了一个 AI Agent——Deep Research。

没错,就是和OpenAI刚刚发布的深度推理功能一样,X ai的Deep Research能够将复杂的查询分解为多个步骤,通过联网搜索、分析文档、综合信息,最终生成结构化的报告。

从演示的效果看,一点都不逊OpenAI。

最重要的是它可以输出最原始的详细的思考过程,就和 DeepSeek-R1一样。

最后就是大家关心如何使用的问题,据悉X的Premium+会员稍后就能用上 Grok-3,刚刚我去看了一样X会员的费用,需要40美金,后续Gork还会推出专门的会员。

附上X订阅教程

另外,Grok 3将在数周后对企业用户提供API接入方案,其中也将包含 DeepSearch。

并且,xAI计划在Grok 3稳定并逐步成熟后,将Grok-2的代码和权重开源。

此次Grok 3的最大亮点在于引入了“思维链”推理能力,能够像人类一样逐步处理复杂任务,类似于Deepseek的思考方式。

此外,Grok 3的开发借助了10万块英伟达H100芯片,其计算量是前代Grok 2的十倍。

同时,Grok 3采用了合成数据集,并结合自我纠错机制和强化学习等先进方法,以提升其推理能力、编程能力和多模态性能

通过这些技术手段,Grok-3现在一越成为目前表现最好的模型。

在Gork-3还未发布之前,马斯克就全网叫嚣Gork-3的推理能力优于现有所有模型,现在看来,他并未夸大,那么如此,某些Close模型是不是该慌了......

相关内容:如何有效解决海外支付难题

关于Gork3VChatGPT之间的比较,可以提供以下信息: Gork系列模型是由LMSYS开发的大规模语言模型,在某些测试中表现出色。例如,Grok-2及其迷你版本已经在多项评估指标上超越了一些知名的竞争对手。 ChatGPT则是由OpenAI研发的语言模型家族的一员,最初以对话能力著称,并随着迭代更新而不断增强功能服务范围。最新的ChatGPT版本可能包括改进后的架构、更大的参数量以及更广泛的知识覆盖等特性。 两者的主要区别在于: - 开发者不同:Gork系列出自LMSYS之手;而ChatGPT则属于OpenAI的产品线。 - 技术特点各异:虽然都是大型预训练语言模型,但各自的技术细节有所差异,比如算法设计、训练数据集的选择等方面可能存在差别。 - 应用场景侧重点不一样:尽管都能用于多种自然语言处理任务,不过由于背后公司战略方向的不同,可能会导致应用场景上的侧重有所不同。 相似之处包括但不限于: - 都是基于深度学习框架构建起来的强大文本生成工具; - 可以为用户提供自动回复、内容创作等功能支持; - 继续通过社区反馈技术进步不断提升性能表现。 需要注意的是,“Gork3V”这个特定名称没有直接找到对应的官方资料确认其确切含义或指代哪个具体的版本。因此上述对比主要依据现有公开的信息对于“Gork”系列最新版与ChatGPT之间的一般性描述来进行讨论。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值