AI 高考成绩曝光:文科高分上线,理科惨败原因惊人

loonggg

读完需要

2

分钟

速读仅需 1 分钟

6 月份是高考月嘛,前几天高考不是出成绩了吗?大家知道如果 AI 去做高考试题能得多少分吗?

前几天,极客公园还真用 AI 做了一个测试,找了九个大模型(GPT-4o、字节豆包、文心 4.0、百小应、通义千问、Kimi、腾讯元宝、MiniMax)测试 2024 年高考试卷,结果有四个大模型文科成绩上了一本线,整体表现最强的是 GPT-4o(文科 562 分),国内模型中表现最好的是字节的豆包(文科 542.5)。

而相比文科,AI 大模型们理科最高仅 478.5 分,且数学测试全部不及格,最高分仅 70。

99aee43296e56d1e45a9e86f1e63f701.png

对于这个考试结果,让我想起来什么了呢?

AI 文科强,理科差,是非常值得思考的一个话题。按道理,理科是有标准答案的,文科是没有标准答案的。为什么越是答案越精准的问题,AI 回答的越差呢?

斯蒂芬・沃尔弗拉姆在《这就是 ChatGPT》这本书当中解释过,他说:因为 LLM 依赖的是自然语言,不是计算语言。LLM 模型可以模仿人类的思维,但人类大脑本身也不是很擅长计算。

这给我们什么启发呢?

启发就是 AI 不擅长逻辑推理,逻辑越复杂的问题,AI 越容易出错,越容易做不到。

相反,如果你从事的工作是自然语言相关的,且不靠逻辑推理和计算的,是很容易先被 AI 取代的。比如:你看,AI 绘画,画什么就是靠想象,没有标准答案,是创意,AI 就可以天马行空,越是类似的工作或者职业,越容易先用上 AI 。所以,如果你从事的是类似的职业,那么你是必须先学习 AI 工具,让 AI 来帮你提效。

反过来,如果你从事的工作,涉及非常复杂的计算、逻辑非常复杂或者业务逻辑很多,你可能就相对安全一些。

这种现象背后的问题是:容错率。

今年年初的时候,我写过一篇文章《AI "取代" 人类职业的路径图》,当时在文章当中提到了 AI 取代人类路径的级别图。

99d92740df14e80b924182e214a856d8.png

根据图中的显示,分了 6 个等级:E1 到 E8+ 。

从图中我们可以看出:AI 取代人类路径是按 AI 的应用领域路线决定。而 AI 应用领域路径是由容错率决定的。

这里的容错率简单的来讲的话,就是:试错成本。

一句话总结,AI 会从容错率由高到低的行业开始 “取代” 人类职业。

以前,我们总以为创意类的工作需要人类的思想,是不容易取代的,但是 AI 的应用发展貌似并不是这样。

像创意类的工作往往没有标准答案,而越没有标准答案的工作反而容易被 AI 取代。

往往越没有标准答案的工作,客户对工作可能就没有那么挑剔,客户没有那么挑剔的话,成本代价就相对较低。

反而是那么有明确严格标准的工作,AI 不容易取代,因为标准是统一的,客户也心知肚明,做的好不好,都知道,就会很挑剔,成本和代价就很高,就不敢轻易让 AI 智能来做。

包括自动驾驶也是一样,对自动驾驶技术来讲,我们是有严格标准的, 必须达到什么条件和标准才能上路,否则,一旦出了责任事故,是涉及生命安全的,甚至责任该怎么划分呢?这可能都不清楚。

自动驾驶一直遥遥无期就是因为错误率达不到预期值(仅仅和人类一个量级)。责任主体是很严肃的问题,所以实现全自动 L4 错误率降到足够低才有能力应对天价赔偿。

会计也是类似道理,GPT 的结果写的再好,也还需要会计作为责任人签字担责。如果 AI 错误率在 1% 这个量级,那么仍然需要人检查验证,实际上和现在会计领域工具相比没有明显的改善,甚至在准确率上不如现有工具(现有工具也能自动导入文件,也有很多各角度检查功能)。

那么从错误率由高到低,就很容易看出 AI “取代” 职业的时间线了。

最后,推荐一下我的 AI 知识星球哈,49 块钱,相比于市面上的星球绝对超值。里面会分享 AI 的各种玩法和应用场景,以及一些 AI 工具。

当然,各种合集教程质量也非常高,绝对值得。

50069e518b50b5d326cc7a1a73fdbddc.jpeg

现在星球搞活动,立减 50 元,只需要 49,后期随着加入的人越多,价格可能上涨哈,早学早享受。

持续干货分享,绝对超值。

7fed0384b6ea803fad63e1cfe4456a2d.jpeg

点击下方公众号卡片,关注我

在公众号对话框,回复关键字 “1024”

有惊喜

2c717ab674a81e10922ee49df1d76fc6.png

  • 22
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值