2月18日午间,由马斯克创立的XAI团队成功举办了新一代人工智能系统Grok-3的线上发布会。实时数据显示,这场科技盛会吸引逾百万观众在线参与,马斯克称赞其为“地球上最聪明的人工智能”,直播主题为「我们的使命是理解整个宇宙」。
发布会演示显示,在数学推理、科学逻辑推理等多方面的性能表现上,Grok3和Grok-3 mini都超过或媲美Gemini、DeepSeek和ChatGPT等对手,此外xAI还推出功能更为强大的Grok3 Thinking推理模式,是有史以来首个突破1400分的模型
在认知维度与创新性应用层面,Grok-3展现出突破性智能特征。实测场景中,该系统不仅能够动态推演天体轨道参数变化,还能自主构建包含完整叙事结构的电子游戏原型......
为加速Grok-3的研发进程,xAI在三个月内迅速扩展了其数据中心的基础设施,将GPU训练集群的规模扩大了一倍,达到了20万块的惊人数量。同时,xAI与戴尔签订了一项价值50亿美元的合同,预计戴尔将在年内向xAI提供配备英伟达GB200芯片的高性能服务器,以进一步增强其计算能力。
“地球上最聪明的AI”
据介绍,Grok-3在数学建模、科学分析及编程开发等核心领域展现出显著优势。多维度基准测试结果显示,其性能表现已全面超越DeepSeek-v3、GPT-4o及Gemini-2 pro等主流AI模型。内部消息证实,该系统已在xAI研发环境中完成为期14天的试运行,各项技术参数达到预期标准。
xAI技术团队表示,尽管Grok系列产品的研发周期相对较短,但其在MMLU综合评估体系中的表现呈现出指数级跃升态势,目前已实现与ChatGPT的技术对标。
马斯克及其团队表示,Grok 3将具备与DeepSeek R1及OpenAI o3 Mini相当的逻辑推演性能。
技术团队证实,大约一个月前,Grok 3的预训练已经完成,从那时起其一直在努力将推理能力融入Grok 3模型中。Grok 3推理迷你版的训练时间更长,表现略优于Grok 3推理模型,这表明Grok 3推理模型具有巨大的潜力。
综合性能评估显示,Grok 3以显著优势领跑全球AI模型排行榜,排名世界第一,有推理模式,有deep research功能。在近期,马斯克在迪拜世界政府峰会的视频通话中宣布了 Grok 3 的推出,并强调其"具备突破性的认知运算能力",堪称"地球上最聪明的人工智能"。
Grok 3比 Grok 2 快十倍,在Grok3中大规模安装更多计算能力使其能够在更短的时间内运行大数据集,同时提供更高的准确性。
马斯克团队输入提示要求Grok-3现场生成代码,经执行后成功渲染出航天器在地火轨道间动态航行的可视化模拟场景。这一实时交互演示充分展现了该模型在代码生成与空间轨迹计算方面的卓越能力。
另一段演示中,Gork-3制作一款类似于俄罗斯方块和宝石迷阵的游戏,展现了其出色的创造力。
马斯克还透露称,xAI即将成立专注于人工智能游戏开发的工作室。他公开表示:"我们正在组建一支创新团队,致力于打造AI赋能的游戏产品。欢迎对人工智能游戏开发充满热情的人才加入我们的行列,共同探索游戏与AI融合的无限可能。"
xAI通过修改 Grok3的训练过程(而不仅仅是硬件改进)为Grok3实现了更好的功能。更新后的模型实现了合成数据集、自我校正和强化学习,以提高其性能。
目前,只有 X 社交平台的 Premium+会员可以用 Grok3 测试版,但可能受限于其订阅价格(40 美元/月)价格或发布时间(当地晚上)的原因,X 平台暂未出现很多使用案例分享。
此外,xAI计划在最新版本完全成熟后立即开源其Grok 模型的先前版本,马斯克预计Grok-3的过渡将在几个月内完成。
在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:
- Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
- Grok-3 会尝试解决黎曼猜想,这一点和 DeepSeek-R1 类似,不像其他许多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放弃并简单地说这是一个重要的未解问题。
- DeepSearch 大约在 Perplexity DeepResearch 产品的水平,但还没有达到 OpenAI 最近发布的「Deep Research」的水平,后者感觉更加彻底和可靠。
马斯克的老同事 Andrej Karpathy(早年特斯拉自动驾驶负责人)提前内测了 Grok3,综合使用下来,他认为 Grok 3 的能力大致与 o1-pro(200 美元/月)相当,优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
同时,对于 Grok3 发的第一个 Agent 产品「Deep Search」,他认为这个功能大概和 Perplexity 的「Deep Research」产品差不多,可以查阅网络资料进行自主探索、给出高质量回答,但有时也会出现编造信息或错误引用的情况,似乎还没到 OpenAI 最新发布的「Deep Research」水平,后者给人感觉更全面更可靠。
如果你喜欢本文,欢迎点赞,并且关注我们的微信公众号:Python技术极客,我们会持续更新分享 Python 开发编程、数据分析、数据挖掘、AI 人工智能、网络爬虫等技术文章!让大家在Python 技术领域持续精进提升,成为更好的自己!
添加作者微信(coder_0101),拉你进入行业技术交流群,进行技术交流!