大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

奇月 发自 凹非寺
量子位 | 公众号 QbitAI

一群大模型玩你画我猜,人类一旁围观超起劲儿。

就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

eaaa37213d281fee2af75dd0754e6781.gif

其实这是最近爆火的一种新的测试基准(doge)。

游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是Claude:它赢了3次!

GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。

9a96b0b89c8938d53ec07a5cb993e250.gif
a378334c6c366d691a042cc212fc1e6d.png

不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是Circle??有点子抽象。

3bfcbd95fbc6a6d4183505fa2fda86c0.png
f2eeb7c47f5b812fb484b0ee2944c39e.png
f413271e6ae608a35c95d538a1ee2c0c.png

所以有人就说,这游戏可以当测试基准来用啊。

5e5eeb2e780b9ac24b6f930a8ff31816.png

还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。

65f3f1405c0f415488b10e0869f9bbf1.png

d1cb69738d60e8ba879812d3023a19fc.png

来看看更多有趣的例子

在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子

6b03d63bd7077cd418da1c24bb9191ea.gif

还有非常简洁的草地海洋

8b4cb09db708a55885cb5c4146cad6e0.gif
95d5638a965aea11baeb8d49e0cea698.gif

动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:

78569405760ebe8c1cf8fe1761acc919.gif

游戏整体效果非常棒,网友们也是好评如潮:

ffdc45afcfb56687ab80637abc460bc0.png

你画我猜项目起源

模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?

首先,不得不提到Simon Willison的一次测试,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。
0b383f48690a5ef13ed92a30e677fb97.png

随后Paul Calcraft看到测试,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?
2bfc6f5ac715fc0859ad625950c33aaa.png

没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。

4e1deaaac8f499b8feecfac6a65e2080.png

游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示,之前大模型在《我的世界》里面比赛盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark

还有人热心地提出了优化建议,比如以答对互相题目的速度作为评分准则,或者加入人类成绩作为参考。

7d0c3dfe5d6023fd8c5c782063625d24.png

还有人提议将游戏变成对抗式训练,这样大模型会进步更快。

907abf9eb4bd8e9c12e8a95e15d0a790.png

不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。

3b99b3096e2528b2e4c8c095a7e5f510.jpeg

有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。

好嘛,咱们AI有自己的洞穴壁画(doge)。

469f84b360e6b6f37d99864e02090c55.png

不过,游戏化学习(Learning through play)其实是教育理论和心理学中的一个重要术语。

9669dc2401321e1459d575598fc580f6.png
多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。
374c2a42560fad6643ebe2a52efddd3c.jpeg
3a3b981a26f75ffe0ccd3ac2d9523f61.png

虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。

作者Paul Calcraft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!

参考链接:

[1]https://twitter.com/paul_cal/status/1850262678712856764
[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/
[3]https://x.com/simonw/status/1849854290153939171

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道,评选从企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月MEET2025智能未来大会公布,期待与数百万从业者共同见证荣誉时刻。

a1bc49ac36ebd3075f63636643835b79.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值