原文来自:
https://x.com/karpathy/status/1891720635363254772
shadow:karpathy 已经提前测评了Grok3,我们基于原文的信息和 DeepSeek 一起讲解这个测评结果。
---
开头暴击
家人们!马斯克家的AI大模型Grok 3今天突然出山,号称要“吊打一切同行”。@karpathy 连夜偷跑实测,结果发现……这玩意儿简直是“天才和憨批的结合体”啊!
---
Part 1:智商测试——忽高忽低,像极了我的期末成绩
✅ “卡坦岛”神操作:程序员狂喜,打工人落泪
让AI写个《卡坦岛》同款网页代码,Grok 3直接掏出满级程序员の尊严,三下五除二搞出个能调“地图半径”的HTML页面!隔壁 Gemini、Claude 当场扑街,只有OpenAI 家200刀/月 的“氪金大佬”能勉强一战。
> 《卡坦岛》是一款策略桌游,通过建造、交易、扩张争夺资源,率先获得10胜点获胜。
在 Thinking 能力上,在卡坦岛问题上表现出色:
“创建一个显示六边形网格的棋盘游戏网页,就像游戏中的 Settlers of Catan 一样。每个六边形网格的编号从 1 到 N,其中 N 是六边形瓷砖的总数。使其通用,以便可以使用滑块更改“环”的数量。例如,在 Catan 中半径为 3 个六边形。请使用单个 html 页面。”
很少有模型能够可靠地做到这一点。o1-pro能做到这一点,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都没有做到这一点。
❌ Emoji谜题翻车:AIの智商突然掉线
但到了破解“Emoji暗号”环节,Grok 3直接表演《人类迷惑行为大赏》——明明给了Rust代码提示,它愣是装瞎!最后还得靠国产选手DeepSeek-R1勉强解码。(DeepSeek:谢邀,人在杭州,刚下飞机)
> Emoji暗号是什么回事?
Emoji 暗号是一种通过在表情符号 emoji 中嵌入隐藏数据的技术手段。它利用 Unicode 编码中的特殊字符(如变体选择符 Variation Selectors 和零宽字符 Zero-Width Characters)来在表面上看似普通的 emoji 或文本中藏入信息。尽管这些信息肉眼不可见,但通过特定的解码方法可以提取出嵌入的数据。
💡 FLOPs 算力题:Grok 3 竟成数学课代表?
最骚的是,让它算 GPT-2 的训练算力,Grok 3 居然掏出草稿纸一顿操作:
> “40GB文本≈10B token×10轮训练×1.5B参数×6FLOPs=1e21次计算!”
而 GPT-4o 和 Claude 当场懵圈……这波“算力の胜利”属实给马斯克长脸了!
> 上传了 GPT-2 论文。karpathy 问了一堆简单的查找问题,效果都很好。然后要求估计训练 GPT-2 所需的训练 flops 数量,无需搜索。这很棘手,因为没有说明 token 的数量,所以必须部分估计和部分计算,Grok3也能计算出来。
--- 近期推荐:
Part 2:搜索功能——比百度强,但离谷歌还差10个文心一言
> 这个功能特别需要关注:深度搜索。非常巧妙的产品,将 OpenAI / Perplexity 所称的“深度研究”与思考结合在一起。只不过不是“深度研究”,而是“深度搜索”。可以对各种问题生成高质量的回答,在互联网上的文章中寻找答案。
✅ 八卦小能手:连牙膏品牌都能扒
问“苹果发布会有啥瓜”“白莲花3拍摄地在哪”,Grok 3秒变赛博狗仔队,连 Bryan Johnson 用的牙膏(据说是个冷门品牌)都能给你扒出来!
❌ 造谣式搜索:AI编瓜,吃瓜群众震怒
但让它查《单身地狱4》嘉宾现状,Grok 3直接开启同人写手模式:“金正洙还在和金敏雪谈恋爱!”(实际早分了)更离谱的是,让它统计AI实验室融资情况,居然漏了自家xAI…… ( 马斯克:你礼貌吗?
---
Part 3:搞笑翻车现场——AIの尊严,碎了一地
🤖 伦理题:AI秒变“圣母玛利亚”
问“为救100万人该不该故意叫错别人性别”,Grok 3瞬间掏出万字道德论文,中心思想:“我选择死亡”。
(隔壁Claude:兄弟,戏过了!)
🎨 灵魂画手:抽象派SVG惊现江湖
让它画“鹈鹕骑自行车”的SVG图,Grok 3交出的作业堪称毕加索转世——鹈鹕腿长两米八,车轮长得像马桶圈。
(Claude:这题我会!看我的《鹈鹕の优雅骑行》)
😂 冷笑话生成器:南极企鹅听了都喊冷
让它讲个笑话,结果输出:“鸡为什么加入乐队?因为它有鼓槌(鸡腿)想当克拉克斯塔!”
(人类:救……这梗比我爷爷还老!)
---
终极暴论
优点: 代码和数学能力直逼 OpenAI 顶配,搜索功能勉强能打。
槽点: 伦理敏感度溢出、冷笑话冻伤全场、搜索造谣一条龙。
锐评:
马斯克这波属实“大力出奇迹”——Grok 3就像刚考完科目三的新手司机,能上秋名山漂移,也能在停车场撞树。但想想人家只练了1年就追上 GPT-4,本打工人已经开始瑟瑟发抖……
(偷偷说:LLM竞技场早期战绩显示,Grok 3可能真要封神!建议OpenAI和谷歌连夜开会,标题就叫《论如何不被马斯克卷死》。)
---
彩蛋
文末附赠 Grok 3 生成的鹈鹕骑自行车SVG图
——温馨提示,看前请备好速效救心丸💊
指令: "Generate an SVG of a pelican riding a bicycle"
生成一张鹈鹕骑自行车的SVG格式图片
展示 Grok 3、Claude3.5 Sonnet、GPT-4o、Gemini 1.5 Flash、GPT-o1-mini、GPT-o1-pro、Llama3.1 70B 等模型如何理解并执行同一个图像生成指令
加入 AI 编程 社区
codenow.wiki
加入交流社群