Grok 3测评:马斯克的新AI能拳打GPT脚踢DeepSeek?实测结果让人……

2dcb08a7c5bdea24b03e8bf82bb298c3.png

原文来自:

https://x.com/karpathy/status/1891720635363254772

shadow:karpathy 已经提前测评了Grok3,我们基于原文的信息和 DeepSeek 一起讲解这个测评结果。

---

开头暴击

家人们!马斯克家的AI大模型Grok 3今天突然出山,号称要“吊打一切同行”。@karpathy 连夜偷跑实测,结果发现……这玩意儿简直是“天才和憨批的结合体”啊!  

---

Part 1:智商测试——忽高忽低,像极了我的期末成绩

“卡坦岛”神操作:程序员狂喜,打工人落泪  

让AI写个《卡坦岛》同款网页代码,Grok 3直接掏出满级程序员の尊严,三下五除二搞出个能调“地图半径”的HTML页面!隔壁 Gemini、Claude 当场扑街,只有OpenAI 家200刀/月 的“氪金大佬”能勉强一战。

239949fdacf73366e56f40badd4e6373.png

> 《卡坦岛》是一款策略桌游,通过建造、交易、扩张争夺资源,率先获得10胜点获胜。

在 Thinking 能力上在卡坦岛问题上表现出色: 

“创建一个显示六边形网格的棋盘游戏网页,就像游戏中的 Settlers of Catan 一样。每个六边形网格的编号从 1 到 N,其中 N 是六边形瓷砖的总数。使其通用,以便可以使用滑块更改“环”的数量。例如,在 Catan 中半径为 3 个六边形。请使用单个 html 页面。” 

很少有模型能够可靠地做到这一点。o1-pro能做到这一点,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都没有做到这一点。

Emoji谜题翻车:AIの智商突然掉线

但到了破解“Emoji暗号”环节,Grok 3直接表演《人类迷惑行为大赏》——明明给了Rust代码提示,它愣是装瞎!最后还得靠国产选手DeepSeek-R1勉强解码。(DeepSeek:谢邀,人在杭州,刚下飞机)  

9881106d58fcb3fa64d946c666d23128.png

> Emoji暗号是什么回事?

680597590f7c0cc1ec57969d38f1ee2d.png

Emoji 暗号是一种通过在表情符号 emoji 中嵌入隐藏数据的技术手段。它利用 Unicode 编码中的特殊字符(如变体选择符 Variation Selectors 和零宽字符 Zero-Width Characters)来在表面上看似普通的 emoji 或文本中藏入信息。尽管这些信息肉眼不可见,但通过特定的解码方法可以提取出嵌入的数据。

💡 FLOPs 算力题:Grok 3 竟成数学课代表?  

最骚的是,让它算 GPT-2 的训练算力,Grok 3 居然掏出草稿纸一顿操作:  

> “40GB文本≈10B token×10轮训练×1.5B参数×6FLOPs=1e21次计算!”  

而 GPT-4o 和 Claude 当场懵圈……这波“算力の胜利”属实给马斯克长脸了!  

> 上传了 GPT-2 论文。karpathy 问了一堆简单的查找问题,效果都很好。然后要求估计训练 GPT-2 所需的训练 flops 数量,无需搜索。这很棘手,因为没有说明 token 的数量,所以必须部分估计和部分计算,Grok3也能计算出来。

--- 近期推荐:

AI正在悄悄抢走谁的饭碗?这份报告把打工人的底裤都扒光了

Part 2:搜索功能——比百度强,但离谷歌还差10个文心一言

> 这个功能特别需要关注:深度搜索。非常巧妙的产品,将 OpenAI / Perplexity 所称的“深度研究”与思考结合在一起只不过不是“深度研究”,而是“深度搜索”。可以对各种问题生成高质量的回答,在互联网上的文章中寻找答案。

7bf5240cd456caa9fd3c3cab080b0c11.png

八卦小能手:连牙膏品牌都能扒  

问“苹果发布会有啥瓜”“白莲花3拍摄地在哪”,Grok 3秒变赛博狗仔队,连 Bryan Johnson 用的牙膏(据说是个冷门品牌)都能给你扒出来!  

造谣式搜索:AI编瓜,吃瓜群众震怒  

但让它查《单身地狱4》嘉宾现状,Grok 3直接开启同人写手模式:“金正洙还在和金敏雪谈恋爱!”(实际早分了)更离谱的是,让它统计AI实验室融资情况,居然漏了自家xAI…… ( 马斯克:你礼貌吗?

---

Part 3:搞笑翻车现场——AIの尊严,碎了一地

1bd4f9db95e5085a4752e81518840d52.png

🤖 伦理题:AI秒变“圣母玛利亚”  

问“为救100万人该不该故意叫错别人性别”,Grok 3瞬间掏出万字道德论文,中心思想:“我选择死亡”。

(隔壁Claude:兄弟,戏过了!)  

7b582fde708ce14748fb5f7a2d29fb22.png

🎨 灵魂画手:抽象派SVG惊现江湖

让它画“鹈鹕骑自行车”的SVG图,Grok 3交出的作业堪称毕加索转世——鹈鹕腿长两米八,车轮长得像马桶圈。

(Claude:这题我会!看我的《鹈鹕の优雅骑行》)  

677b308d16264513b4d006b2b96b797b.png

😂 冷笑话生成器:南极企鹅听了都喊冷  

让它讲个笑话,结果输出:“鸡为什么加入乐队?因为它有鼓槌(鸡腿)想当克拉克斯塔!”

(人类:救……这梗比我爷爷还老!)  

---

终极暴论  

优点: 代码和数学能力直逼 OpenAI 顶配,搜索功能勉强能打。  

槽点: 伦理敏感度溢出、冷笑话冻伤全场、搜索造谣一条龙。  

锐评:  

马斯克这波属实“大力出奇迹”——Grok 3就像刚考完科目三的新手司机,能上秋名山漂移,也能在停车场撞树。但想想人家只练了1年就追上 GPT-4本打工人已经开始瑟瑟发抖……  

(偷偷说:LLM竞技场早期战绩显示,Grok 3可能真要封神!建议OpenAI和谷歌连夜开会,标题就叫《论如何不被马斯克卷死》。)  

---  

彩蛋 

文末附赠 Grok 3 生成的鹈鹕骑自行车SVG图

——温馨提示,看前请备好速效救心丸💊

3ee835d7b7252263cca649596c911ee6.png

指令: "Generate an SVG of a pelican riding a bicycle"

生成一张鹈鹕骑自行车的SVG格式图片

展示 Grok 3、Claude3.5 Sonnet、GPT-4o、Gemini 1.5 Flash、GPT-o1-mini、GPT-o1-pro、Llama3.1 70B 等模型如何理解并执行同一个图像生成指令

加入 AI 编程 社区

codenow.wiki

bc5936e98c9723a3bf8fc0be531520c8.jpeg

537157fe542db965abe959711898dbf4.jpeg

加入交流社群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值