AI 高考成绩曝光:文科高分上线,理科惨败原因惊人

loonggg

读完需要

2

分钟

速读仅需 1 分钟

6 月份是高考月嘛,前几天高考不是出成绩了吗?大家知道如果 AI 去做高考试题能得多少分吗?

前几天,极客公园还真用 AI 做了一个测试,找了九个大模型(GPT-4o、字节豆包、文心 4.0、百小应、通义千问、Kimi、腾讯元宝、MiniMax)测试 2024 年高考试卷,结果有四个大模型文科成绩上了一本线,整体表现最强的是 GPT-4o(文科 562 分),国内模型中表现最好的是字节的豆包(文科 542.5)。

而相比文科,AI 大模型们理科最高仅 478.5 分,且数学测试全部不及格,最高分仅 70。

99aee43296e56d1e45a9e86f1e63f701.png

对于这个考试结果,让我想起来什么了呢?

AI 文科强,理科差,是非常值得思考的一个话题。按道理,理科是有标准答案的,文科是没有标准答案的。为什么越是答案越精准的问题,AI 回答的越差呢?

斯蒂芬・沃尔弗拉姆在《这就是 ChatGPT》这本书当中解释过,他说:因为 LLM 依赖的是自然语言,不是计算语言。LLM 模型可以模仿人类的思维,但人类大脑本身也不是很擅长计算。

这给我们什么启发呢?

启发就是 AI 不擅长逻辑推理,逻辑越复杂的问题,AI 越容易出错,越容易做不到。

相反,如果你从事的工作是自然语言相关的,且不靠逻辑推理和计算的,是很容易先被 AI 取代的。比如:你看,AI 绘画,画什么就是靠想象,没有标准答案,是创意,AI 就可以天马行空,越是类似的工作或者职业,越容易先用上 AI 。所以,如果你从事的是类似的职业,那么你是必须先学习 AI 工具,让 AI 来帮你提效。

反过来,如果你从事的工作,涉及非常复杂的计算、逻辑非常复杂或者业务逻辑很多,你可能就相对安全一些。

这种现象背后的问题是:容错率。

今年年初的时候,我写过一篇文章《AI "取代" 人类职业的路径图》,当时在文章当中提到了 AI 取代人类路径的级别图。

99d92740df14e80b924182e214a856d8.png

根据图中的显示,分了 6 个等级:E1 到 E8+ 。

从图中我们可以看出:AI 取代人类路径是按 AI 的应用领域路线决定。而 AI 应用领域路径是由容错率决定的。

这里的容错率简单的来讲的话,就是:试错成本。

一句话总结,AI 会从容错率由高到低的行业开始 “取代” 人类职业。

以前,我们总以为创意类的工作需要人类的思想,是不容易取代的,但是 AI 的应用发展貌似并不是这样。

像创意类的工作往往没有标准答案,而越没有标准答案的工作反而容易被 AI 取代。

往往越没有标准答案的工作,客户对工作可能就没有那么挑剔,客户没有那么挑剔的话,成本代价就相对较低。

反而是那么有明确严格标准的工作,AI 不容易取代,因为标准是统一的,客户也心知肚明,做的好不好,都知道,就会很挑剔,成本和代价就很高,就不敢轻易让 AI 智能来做。

包括自动驾驶也是一样,对自动驾驶技术来讲,我们是有严格标准的, 必须达到什么条件和标准才能上路,否则,一旦出了责任事故,是涉及生命安全的,甚至责任该怎么划分呢?这可能都不清楚。

自动驾驶一直遥遥无期就是因为错误率达不到预期值(仅仅和人类一个量级)。责任主体是很严肃的问题,所以实现全自动 L4 错误率降到足够低才有能力应对天价赔偿。

会计也是类似道理,GPT 的结果写的再好,也还需要会计作为责任人签字担责。如果 AI 错误率在 1% 这个量级,那么仍然需要人检查验证,实际上和现在会计领域工具相比没有明显的改善,甚至在准确率上不如现有工具(现有工具也能自动导入文件,也有很多各角度检查功能)。

那么从错误率由高到低,就很容易看出 AI “取代” 职业的时间线了。

最后,推荐一下我的 AI 知识星球哈,49 块钱,相比于市面上的星球绝对超值。里面会分享 AI 的各种玩法和应用场景,以及一些 AI 工具。

当然,各种合集教程质量也非常高,绝对值得。

50069e518b50b5d326cc7a1a73fdbddc.jpeg

现在星球搞活动,立减 50 元,只需要 49,后期随着加入的人越多,价格可能上涨哈,早学早享受。

持续干货分享,绝对超值。

7fed0384b6ea803fad63e1cfe4456a2d.jpeg

点击下方公众号卡片,关注我

在公众号对话框,回复关键字 “1024”

有惊喜

2c717ab674a81e10922ee49df1d76fc6.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值