Claude 3 能辅导你的数学作业了?

文章讲述了作者使用Claude3解决高数定积分和数独问题的实验,发现其在数学公式识别和解答方面表现出色,但在数独的空格位置识别上存在缺陷。这揭示了人工智能在辅助学习工具中的潜力,但也指出其在特定任务上的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

详细讲解,耐心答疑。一个不知疲倦,更不会嫌你「问题太傻」的优秀助教。

bd2f3500b0363a6428e1552f8162ece3.jpeg

能力

Claude 3 推出之后,风头正劲。其中的「超大杯」Opus 号称可以在各项指标上碾压 GPT-4。这不,最近有一篇关于 Claude 3 在各个科学领域应用的文章我的朋友圈里刷屏了。文章提到了 Claude 3 在材料学、物理学和数学等领域研究的应用,让人感到非常振奋。仿佛有了这款新的大语言模型,科研工作都可以交给它来完成。这篇文章引起了广泛关注,但也有不少人持怀疑态度。由于我对材料学了解不多,我也把文章分享到朋友圈,想听听大家的意见。

4571c848f133a4cd20c982e212bcbdfd.jpeg

结果朋友们众说纷纭。有人认为有用,也有人认为没用。与其纠结于这些争论,不如我们亲自动手试一试。

高数

我决定让 Claude 3 帮我解答一些微积分题目,看看它在高等数学方面的表现如何,能否给出正确答案。我从 可汗学院找了一些微积分的练习题。

e703781406b85927fe7109430fa4aa04.jpeg

第一题是求一个定积分,涉及求导和根号等操作。

266a4965e4bc11047298f4efc613552e.jpeg

这题目让我感到很熟悉,毕竟大学学过,但现在让我解题确实有难度,需要重新复习。与其自己花时间做题,不如直接把题目交给 Claude 3。

fbbb2a6c8ae94f67bf1f1186b40a3f34.jpeg

Claude 3 给出了完整的解题步骤,从已知条件出发,先求导数,再计算定积分,最后得出答案为 3。

a8250368ba5da3b7f62496d661243519.jpeg

我半信半疑,把题目输入可汗学院,没想到 Claude 3 的答案居然正确。

0bd005c4421e286ea944a92cbfc3db33.jpeg

我怀疑这是不是碰巧蒙对了,于是又尝试了第二道题。

8783b2b7ca4c2b55dd2ab766d5041f10.jpeg

这次我直接把题目截图发给 Claude 3,它很快给出了详细的解题步骤,最终得出答案为 -9。

d02f63782d8bce16c96ffc1859d711a0.jpeg

我把答案提交到可汗学院,结果依然正确。

6b9661be1d476536efca2d514521c733.jpeg

两道题下来,已经很难说 Claude 3 是在乱猜了。至少对于可汗学院上的这些定积分练习题,它能够通过 OCR 识别题目,列出清晰的解题步骤,讲明原理,并给出准确答案。

数独

除了高数题,我还让 Claude 3 尝试解答数独题。起因是去年我带学生参加了华为杯研究生数学建模大赛,最后获得了数模之星提名奖(一等奖 200 名中的前 12)。

194c0b86bb6455e181ec14c3eea77ed3.jpeg

大赛颁奖典礼,场馆里有个有趣的环节叫做「数学文化互动」。

5b32db4c3cdd3badd852c4456f1d8032.jpeg

大家聚在一起解各种数学题,从微积分到数独,应有尽有。

aa55de9f375354acc27e158c7fe40fac.jpeg

我对数独不太在行,当时就想到把题目拍照发给 ChatGPT 求解。

8f2a60aefa7e9a0153b535cb730905d5.jpeg

它虽然尝试分析,但最终没能解出来,我也没拿到奖品。

今年 3 月 10 日,我再次尝试,把同样的题目发给了网页版 ChatGPT。

5e55cc144c08b67316ed44e0a1af95dd.jpeg

它还是尝试分析题目,但我看到它开始编程时就知道不妙。

e8bce26b75ccec6476427e5b1f5de6c4.jpeg

ChatGPT 的英文 OCR 能力虽然不错,对中文还有欠缺。但它编程来进行 OCR ,能力就立即下降一大截。因为这些 Python 包比起 ChatGPT 的 OCR 能力,差得太远了。果不其然,最后 ChatGPT 只识别出了 8、7、4 三个数字,根本没法解题。

于是它就开始执拗地继续尝试识别,识别出来的结果是这样的:

04db2cf32fa85ab00be7e9c2155e7979.jpeg

以及这样的:

4766ed646f93a6c93334497f4ad2505a.jpeg

总之,对于解题来说,ChatGPT 的这些努力毫无助益。

于是我把同样的题目发给了 Claude 3。令人惊喜的是,它直接给出了最终答案,没有任何迟疑。

2dbb9331700439d9f1631be9857301e2.jpeg

然而,我仔细一看就发现答案有问题。比如答案中的左上角填入了数字 5,可其实 5 已经出现在了第一行第二列,所以这显然不对。后来我又测试了几道数独题,Claude 3 的表现都不尽如人意,没有一题答对。

探析

为了找出问题所在,我让 Claude 3 展示 OCR 识别结果。

a585bf2aba7eae9a4b2670d59e32d3ac.jpeg

这一下,我立即找到了原因。

558da39649ce11861c79497281202e30.jpeg

我发 Claude 3 虽然能准确识别每行数字,但对于空格的位置经常出错。比如第 3 行的正确填法是「x 3 x」。

93038bf22282a3ae600100bd10869ea7.jpeg

但 Claude 3 却识别成「3 x x」。

2a12f7b00c08f18268cb965bc8f4b24c.jpeg

数独题中,哪怕只有一个空格位置错了,也会导致整个答案出错。不能准确把握输入,相当于考试的时候审题出错,后续结果也就可想而知了。看来 OCR 中的空白位置识别失误,是 Claude 3 无法准确解答数独问题的短板。

我把实验的结果做成了视频。


很快就有观众留言,反馈了自己测试的结果。

4ff6c2951bad73808c31884910ef5449.jpeg

这证明了我的判断还是准确的。

小结

通过这些实验,我们可以得出以下结论:Claude 3 在识别数学公式方面表现出色,能够准确识别数字和符号,理解公式含义,并给出正确解答。然而,它在数独题的空格位置识别上还存在问题,导致答案频频出错。

虽然 Claude 3 在理科题目的自动求解上还称不上完美,但在辅助自学方面,它的潜力不容小觑。想想看,以前我们做题时,还需要专门购买题目精讲手册,来详细讲解答案,帮助我们解除疑惑。现在有了 Claude 3,它能够根据你拍照输入的题目,提供详尽的解题步骤。遇到疑惑的地方,你还可以随时提问,却不用担心问题「太傻」,有损自己睿智的人设。这对于自学和课业辅导来说,是一个非常好的工具。

我目前只测试了定积分和数独题。至于 Claude 3 在其他理科题上的表现如何,还有待进一步探索。我相信,只要给它足够的准确知识作为上下文,Claude 3 在文科题目上也能有所斩获。欢迎大家都来尝试一下,更希望你能把测试结果分享到评论区,让我们共同探索人工智能在教育领域的应用前景。

祝 AI 辅导数学练习愉快!

点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标

欢迎订阅我的小报童付费专栏,每季度更新不少于10篇文章。订阅一整年价格优惠。

5fb82039808475330e97a2a2ed7d9215.jpeg

如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。

1f43e0a0dbbd43a34653981fbc1408f4.jpeg

若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。 

延伸阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值