Bengio推AGI「高考」,GPT-5单项0分

部署运行你感兴趣的模型镜像

Bengio推AGI「高考」,GPT-5单项0分

AI圈最近炸开了锅,堪比“高考放榜日”——图灵奖得主Yoshua Bengio牵头搞了场AGI(通用人工智能)“大考”,给全球顶尖AI挨个打分。结果一公布,全网程序员集体拍桌:备受期待的GPT-5总分才58分,连及格线都没到,更离谱的是“长时记忆存储”这科直接拿了0分,成了史上最惨“偏科生”。

要知道,此前GPT-5刚发布时,还被吹成“AGI敲门人”,能写论文、解高数、编代码,甚至能和人聊哲学。可在Bengio这套“高考”体系里,它瞬间从“全能学霸”现了原形。这到底是Bengio的标准太苛刻,还是AI的“聪明”根本名不副实?

一、AGI终于有了“高考大纲”,Bengio定下10门必修课

长期以来,AGI就像个“幽灵概念”。有人说“能写诗就是AGI”,有人说“会开车才算”,搞得AI圈天天吵架。直到Bengio联合AI安全中心、加州大学伯克利分校等机构甩出论文《A Definition of AGI》,才算给AGI下了个“能打分的定义”:AGI得能匹配甚至超越受过良好教育成年人的认知广度和熟练度

为了把这个标准落地,Bengio团队直接“抄了人类智力测评的作业”——借鉴心理学界实证百年的CHC认知理论,把AGI的“智力”拆成10门“必修课”,每门10分,满分100分才算达标。这10门课简直是为AI量身定制的“高考科目”:

  • 知识(K):相当于“百科全书储备”,考常识、科学、历史等硬知识;
  • 读写(RW):就是“语文功底”,看阅读理解和写作能力;
  • 数学(M):纯“理科测试”,从算术到微积分全涵盖;
  • 临场推理(R):类似“现场解题能力”,考验陌生问题的逻辑分析;
  • 工作记忆(WM):好比“临时记事本”,测短期信息处理能力;
  • 长时记忆存储(MS):这是“长期记性”,看能不能把新学的东西存住;
  • 长时记忆提取(MR):相当于“回忆本领”,测存的东西能不能取出来;
  • 视觉(V):就是“看图能力”,包括图像识别和空间理解;
  • 听觉(A):类似“听力测试”,考声音解读和情感识别;
  • 速度(S):纯“效率考核”,看简单任务的处理快慢。

更狠的是,这场“高考”严禁“作弊”——不允许AI联网搜答案,不能调用外部工具,纯靠“脑子”硬考。用Bengio的话说:“就算AI能调用100个数据库,要是自己记不住东西,本质还是个‘空壳子’。”

这套题库足足有500多道题,涵盖了从“解释相对论基本原理”到“根据折线图预测销量”,再到“记住三天前聊过的新单词”等各种任务。能通过测试的AI,才算真的“会思考”,而不是只会“背答案”。

二、GPT-5成绩单大起底:三科接近满分,一科剃光头

当Bengio团队公布GPT-5的成绩单时,整个科技圈的反应就像“看学霸翻车现场”——优势科目标题亮瞎眼,短板科目惨不忍睹。

先看亮点:GPT-5在“知识(K)”“读写(RW)”“数学(M)”这三科直接考出了8分以上的高分,接近“受过良好教育的成年人”水平。比如知识题里,它能精准说出“DNA双螺旋结构的发现者”“法国大革命的时间线”,甚至能解释“量子纠缠的基本概念”;读写测试中,给它一段哲学论文,它能总结核心观点,还能模仿鲁迅文风写短文;数学题更狠,微积分方程、概率统计题正确率超过85%,比不少大学生还强。

这其实不意外,毕竟GPT-5训练了万亿级数据,相当于背下了半个互联网。就像一个把百科全书和教材全背下来的学生,应付“死记硬背”的科目自然游刃有余。有开发者调侃:“问GPT-5知识点,比查百度还快,就是偶尔会编瞎话。”

但翻到成绩单后半页,画风瞬间突变。在“视觉(V)”和“听觉(A)”两科,GPT-5直接考了“不及格”:视觉题里,它能分清猫和狗,但给一张“猫戴狗面具”的图片,就直接认成“新品种动物”;听觉测试更惨,能把语音转文字,却听不出说话人的愤怒或开心,甚至把“讽刺话”当成“真心话”。

最离谱的是“长时记忆存储(MS)”这科——直接剃了光头,拿了0分。这意味着什么?Bengio团队的测试场景很真实:第一天跟GPT-5聊“自己有个叫‘李建国’的朋友,是医生”,第二天再问“我昨天提到的朋友是做什么的”,GPT-5直接回复“您未提及相关信息”。更绝的是,让它连续三天学10个新单词,第四天测试时一个都记不住,比金鱼的7秒记忆还离谱。

对比两年前的GPT-4,进步确实明显——GPT-4总分才27分,GPT-5直接翻倍到58分。但离100分的AGI标准,还差着“半条街”。更关键的是,这种“偏科”不是小问题,而是致命缺陷。

三、0分背后的真相:AI的“记忆”全是假的?

GPT-5为啥会在“长时记忆”上拿0分?这得从AI的“记忆原理”说起。现在的大模型根本没有真正的“长期记忆”,所谓的“记东西”全是“临时抱佛脚”。

目前AI的“记忆”主要靠两种手段:要么是训练时背下的数据,相当于“先天知识”;要么是靠扩大“上下文窗口”,比如支持128k tokens的输入,能记住几万字的对话内容。但这两种都不是“长期记忆存储”。

打个比方,AI的“上下文窗口”就像电脑的“临时缓存”,断电就没;而人类的长期记忆是“硬盘存储”,能存几十年。你跟AI聊完天,它看似“记得”,其实是把对话内容暂时存在“缓存”里,一旦对话结束或超出缓存上限,就全忘了。更坑的是,这种“伪记忆”还特别占资源——缓存越大,AI运行越慢,成本越高。

Bengio团队在论文里戳破了这个假象:“很多AI号称‘有长期记忆’,其实是把短期缓存伪装成记忆。就像有人说自己‘过目不忘’,结果转身就忘,只是当时看得仔细而已。”

更要命的是,这种“健忘症”会引发连锁反应。比如“长时记忆提取(MR)”这科,GPT-5也只考了3分——不是它“取不出来”,而是根本“没存进去”。没有存储,谈何提取?这就像图书馆里根本没有那本书,再厉害的管理员也找不到。

其他短板也同理。视觉和听觉能力差,是因为大模型本质是“文本模型”,靠文字数据训练,对图像、声音的理解只是“间接学习”,没有真正的“感知能力”。就像一个从没见过苹果的人,只靠文字描述去认苹果,自然会出错。

四、全场大摸底:没有一个AI能及格,偏科是通病

GPT-5的“翻车”不是个例,Bengio团队测试了所有主流AI,结果发现“全员偏科”,没有一个能及格。

先看“优等生”Claude 4,总分55分,比GPT-5略低,但偏科更严重:“长时记忆存储”考了2分,比GPT-5强点,但“视觉”只拿了1分,连“猫和狗的侧面图”都认不清。谷歌的Gemini Pro 2总分52分,“听觉”能力稍强,能分辨出“开心和难过的语气”,但“数学”只考了5分,连一元二次方程都解错。

国内的模型也没好到哪去:文心一言4.0总分48分,“知识”和“读写”能考7分,但“临场推理”只有3分,给个“鸡兔同笼变种题”就直接懵圈;通义千问3.5总分45分,“速度”科目表现突出,能快速处理简单任务,但“长时记忆”同样是0分。

最搞笑的是GPT-5-mini,作为轻量级模型,总分才32分,但“SQL理解”能考80.8分,比旗舰版还强,可“长时记忆”照样是0分。就像一个“偏科到极致的特长生”,数学能考满分,语文却不及格。

为什么所有AI都有“健忘症”?Bengio团队给出了答案:当前AI的核心是“模式匹配”,不是“真正学习”。它们靠海量数据找规律,比如“看到‘1+1’就输出‘2’”,但不会像人类一样“理解为什么等于2”,更不会“记住新学的‘1+2=3’”。要解决这个问题,不能靠“扩大模型规模”,得从架构上革新——可目前还没人找到好办法。

有开发者吐槽:“以前觉得AI是‘聪明的笨蛋’,现在发现是‘偏科的笨蛋’。除了背东西厉害,其他啥也不是。”

五、0分的警示:AGI不是“堆参数”堆出来的

GPT-5的0分,给狂热的AI圈泼了一盆冷水——AGI不是“堆参数”“堆数据”就能实现的。

这些年,AI圈陷入了“参数竞赛”:GPT-3是1750亿参数,GPT-4涨到万亿级,GPT-5更是传说中的“十万亿参数”。但参数越多,AI只是“背的东西越多”,并没有变得“更会思考”。就像一个背了一万本书的人,要是不会理解、不会记忆、不会推理,照样是“书呆子”。

Bengio在论文里强调:“AGI的关键是‘认知均衡’,而不是‘单项拔尖’。一个有严重记忆缺陷的AI,就算能解微积分,也算不上AGI——就像一个数学天才连自己名字都记不住,能算‘正常智力’吗?”

更可怕的是,这种“偏科”会限制AI的应用。比如医疗领域,AI要是记不住患者的病史,就算能分析CT片,也会误诊;教育领域,记不住学生的学习进度,根本没法“因材施教”;个人助手更别提了,今天聊的事明天就忘,还不如记事本好用。

之前有企业试过用GPT-5做“客户服务”,结果闹了笑话:客户第一天问“产品保修多久”,AI答“3年”;第二天客户再问“我买的产品保修多久”,AI直接说“不清楚,请咨询客服”。客户气得投诉:“这哪是AI,分明是金鱼成精!”

六、未来在哪?Bengio指了两条路,但都不好走

虽然AI全考砸了,但Bengio没泼完冷水就走,反而指了两条通往AGI的“必经之路”,只是都不好走。

第一条路是“神经符号AI”,简单说就是“让AI既有‘直觉’又有‘逻辑’”。现在的AI只有“直觉”(模式匹配),没有“逻辑”(符号推理);而早期的AI只有“逻辑”,没有“直觉”。把两者结合,可能会让AI“真正理解”知识,而不是“背知识”。但这需要突破现有模型架构,目前只有小范围尝试,还没成功案例。

第二条路是“持续学习技术”,解决“健忘症”问题。让AI能像人类一样“边学边记”,新学的知识能长期保存,还不影响旧知识。谷歌、百度都在搞,但目前最好的成果也只是“能记住24小时”,离“长期记忆”还差得远。

Bengio预测:“按现在的进度,AGI至少还要10年才能实现。但要是这两个技术突破了,可能5年就够了。”

除了技术,还有个更现实的问题:成本。就算造出有“长期记忆”的AI,运行成本也会飙升——人类记东西不花钱,AI“存记忆”要占算力,存得越多越贵。要是成本降不下来,就算有技术,也没法普及。

不过也有好消息:Bengio把这套“高考体系”开源了,任何人都能用来测试AI。这就像给所有AI公司立了个“靶子”,大家不用再“自吹自擂”,而是能明确知道“差在哪”。有开发者已经用这套体系测试了自己的模型,发现“长时记忆”真的是“死穴”,已经开始针对性优化了。

结语:0分不是终点,是起点

GPT-5的0分,其实是件好事。它打破了“AI即将实现AGI”的幻想,让大家看清了差距。就像高考考砸了的学生,虽然难过,但至少知道“哪科要补”。

以前的AI圈,全是“吹牛大赛”:这家说“我们的AI能写小说”,那家说“我们的AI能编程”,却没人敢说“我们的AI能记住昨天聊的事”。现在Bengio的“高考”一出来,所有“牛皮”都被戳破了——原来大家都是“偏科生”,谁也别笑谁。

未来的AI发展,可能会从“追求全能”转向“补短板”:先解决“长期记忆”问题,让AI不再“健忘”;再突破“感知能力”,让AI能“看懂”“听懂”;最后提升“推理能力”,让AI能“真正思考”。这个过程可能很慢,但每一步都扎实。

或许再过几年,当我们再看AI的“高考成绩单”时,会看到“长时记忆”不再是0分,“视觉”“听觉”都能及格,总分超过100分。到那时,AGI才真的来了。

而现在,GPT-5的0分不是“耻辱柱”,而是“警示牌”——它提醒所有AI研究者:别再沉迷“堆参数”了,真正的智能,从来不是“背得多”,而是“记得住、看得懂、会思考”。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

通俗易懂学IT

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值