Grok 3测评：马斯克的新AI能拳打GPT脚踢DeepSeek？实测结果让人……-CSDN博客

本文链接：https://blog.csdn.net/shadowcz007/article/details/145719024

原文来自：

https://x.com/karpathy/status/1891720635363254772

shadow：karpathy 已经提前测评了Grok3，我们基于原文的信息和 DeepSeek 一起讲解这个测评结果。

---

开头暴击

家人们！马斯克家的AI大模型Grok 3今天突然出山，号称要“吊打一切同行”。@karpathy 连夜偷跑实测，结果发现……这玩意儿简直是“天才和憨批的结合体”啊！

---

Part 1：智商测试——忽高忽低，像极了我的期末成绩

✅ “卡坦岛”神操作：程序员狂喜，打工人落泪

让AI写个《卡坦岛》同款网页代码，Grok 3直接掏出满级程序员の尊严，三下五除二搞出个能调“地图半径”的HTML页面！隔壁 Gemini、Claude 当场扑街，只有OpenAI 家200刀/月的“氪金大佬”能勉强一战。

> 《卡坦岛》是一款策略桌游，通过建造、交易、扩张争夺资源，率先获得10胜点获胜。

在 Thinking 能力上，在卡坦岛问题上表现出色：

“创建一个显示六边形网格的棋盘游戏网页，就像游戏中的 Settlers of Catan 一样。每个六边形网格的编号从 1 到 N，其中 N 是六边形瓷砖的总数。使其通用，以便可以使用滑块更改“环”的数量。例如，在 Catan 中半径为 3 个六边形。请使用单个 html 页面。”

很少有模型能够可靠地做到这一点。o1-pro能做到这一点，但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都没有做到这一点。

❌ Emoji谜题翻车：AIの智商突然掉线

但到了破解“Emoji暗号”环节，Grok 3直接表演《人类迷惑行为大赏》——明明给了Rust代码提示，它愣是装瞎！最后还得靠国产选手DeepSeek-R1勉强解码。（DeepSeek：谢邀，人在杭州，刚下飞机）

> Emoji暗号是什么回事？

Emoji 暗号是一种通过在表情符号 emoji 中嵌入隐藏数据的技术手段。它利用 Unicode 编码中的特殊字符（如变体选择符 Variation Selectors 和零宽字符 Zero-Width Characters）来在表面上看似普通的 emoji 或文本中藏入信息。尽管这些信息肉眼不可见，但通过特定的解码方法可以提取出嵌入的数据。

💡 FLOPs 算力题：Grok 3 竟成数学课代表？

最骚的是，让它算 GPT-2 的训练算力，Grok 3 居然掏出草稿纸一顿操作：

> “40GB文本≈10B token×10轮训练×1.5B参数×6FLOPs=1e21次计算！”

而 GPT-4o 和 Claude 当场懵圈……这波“算力の胜利”属实给马斯克长脸了！

> 上传了 GPT-2 论文。karpathy 问了一堆简单的查找问题，效果都很好。然后要求估计训练 GPT-2 所需的训练 flops 数量，无需搜索。这很棘手，因为没有说明 token 的数量，所以必须部分估计和部分计算，Grok3也能计算出来。

--- 近期推荐：

AI正在悄悄抢走谁的饭碗？这份报告把打工人的底裤都扒光了

Part 2：搜索功能——比百度强，但离谷歌还差10个文心一言

> 这个功能特别需要关注：深度搜索。非常巧妙的产品，将 OpenAI / Perplexity 所称的“深度研究”与思考结合在一起。只不过不是“深度研究”，而是“深度搜索”。可以对各种问题生成高质量的回答，在互联网上的文章中寻找答案。