[GPT4o VS Claude3.5 Sonnet]神仙打架，也分高下！

赛博王老五

已于 2024-08-15 23:45:50 修改

阅读量941

点赞数 23

文章标签：人工智能 gpt

于 2024-08-15 23:40:10 首次发布

本文链接：https://blog.csdn.net/laowusishu/article/details/141234112

版权

就在昨天，老五接到学院教学秘书的通知，学院给每位教师报销大模型的订阅费用。

这个消息让没出息的老五激动万分，毕竟每个月20美金的费用，对月薪3千的老五来说确实是一笔不小的开支，

但是学院的条件是GPT４o和Claude3.5只能订阅一个。那么问题来了，各位看官如果你是老五，在只有20美金的前提下，是选择续费给GPT４o还是Claude3.5呢?

本着好钢要用到刀刃上的原则，老五选择平常工作中使用最多的四个场景对 GPT4O和Claude3.5 进行测试，神仙打架，既分高下也决生死！！！

第一回合：数学计算能力

作为一个高数挂科的学渣，数学是我永远的痛，那么大模型的数学计算能力又如何呢？

本回合我们选择了2024年全国新课标Ⅰ卷进行数学能力的测试，通过截图的方式，将高考数学试题上传给大模型。

本回合数学计算能力测试，共选择5道数学题，其中GPT4o总计作对两道题目，总用时75s；Claude3.5总计作对4道题目，总用时35s。

项目	第一题	第二题	第三题	第四题	第五题	用时
GPT4O	A. {-1, 0}	D. 1+i	D. 2	D. 3m	D.9√3π	75s
Claude3.5 sonnet	A. {-1, 0}	C. 1-i	D. 2	C. m/3	B.3√3π	35s
教育考试院给出的标准答案	A. {-1, 0}	C. 1-i	D. 2	A.-3m	B.3√3π

在本回合的测试中试卷题目的识别准确程度上，GPT4o和Calude3.5 sonnet的能力旗鼓相当，但是在做题的速度和正确率上Claude3.5 sonnet 更胜一筹。

第二回合：图片识别能力

高手对决，寻常处见功力，细微处见真章。

为了进一步测试GPT4o 和Claude3.5的图像识别能力，我又随手拍了一张工位照片进行对比测试，让模型逐个识别图片中的所有物体，列出详细清单。

通过对识别结果的比较，Claude3.5和GPT4的识别结果难分伯仲，Claude3.5能够识别出来的物品种类更多，例如办公椅、扬声器和办公桌，GPT4未识别出来。

但是GPT4o识别出来的相对细致，我们以盆栽为例，GPT4o不仅准确识别出来为盆栽植物，并准确地说明了摆放的位置，反观claude3.5只识别出来绿色植物两盆。海底捞的手提袋，GPT4o能够精准的识别出袋子上“海底捞”的字样，并且给出袋子所在的位置，这些都是细节，这个视觉识别能力确实厉害。

第三回合：文本生成能力

作为一名文字工作者，大模型的文本生成能力当然也是我所关心的。为了测试大模型的文本生成能力，我给大模型输入“我想深入了解日本现代化发展历程，给我写一篇详细的综述，你自己列好提纲，然后写好内容。字数不少于2w字”。

在本轮的测试中GPT4o和Claude3.5都先生成文本提纲，然后根据提纲编写相关的文章初稿，并且生成内容的每一小节的标题和前面给出的大纲都是保持一致。

但是在文章生成的细节方面，claude3.5引用更多数据，看着更专业、很有说服力。

本回合Claude3.5以微弱的优势获胜。

第四回合：代码编写能力

备受瞩目的编码能力怎么能不测试呢？让大模型帮我写一个贪吃蛇大作战小游戏吧！

"假设我对编程一无所知，请你利用python语言帮我编写一个贪吃蛇大作战小程序，要求代码能够在我的电脑上面运行，并分步骤告诉我各个模块的实现思路。"

在编写贪吃蛇小游戏的过程中，GPT4o和Claude3.5都很快的完成程序的编写，经过几轮的迭代，两个程序都能运行成功。

但是在生成代码实现思路的过程中，GPT4o和Claude3.5的输出方式略有不同。GPT4o侧重于招式的传授，像是一个老师傅手把手的教徒弟，这一步应该做啥，下一步应该做什么层次分明。而Claude3.5则是先传授心法再传授招式，先整体给出实现工作流，然后给出示例相关代码，最后在解释每一段的实现思路。

两种方式各有千秋，但是对于老五来说，更喜欢Claude3.5这种方式。