[GPT4o VS Claude3.5 Sonnet]神仙打架,也分高下!

就在昨天,老五接到学院教学秘书的通知,学院给每位教师报销大模型的订阅费用。

这个消息让没出息的老五激动万分,毕竟每个月20美金的费用,对月薪3千的老五来说确实是一笔不小的开支,

但是学院的条件是GPT4o和Claude3.5只能订阅一个。那么问题来了,各位看官如果你是老五,在只有20美金的前提下,是选择续费给GPT4o还是Claude3.5呢?

本着好钢要用到刀刃上的原则,老五选择平常工作中使用最多的四个场景对 GPT4O和Claude3.5 进行测试,神仙打架,既分高下也决生死!!!

第一回合:数学计算能力

作为一个高数挂科的学渣,数学是我永远的痛,那么大模型的数学计算能力又如何呢?

本回合我们选择了2024年全国新课标Ⅰ卷进行数学能力的测试,通过截图的方式,将高考数学试题上传给大模型。

本回合数学计算能力测试,共选择5道数学题,其中GPT4o总计作对两道题目,总用时75s;Claude3.5总计作对4道题目,总用时35s。

项目

第一题

第二题

第三题

第四题

第五题

用时

GPT4O

A. {-1, 0}

D. 1+i

D. 2

D. 3m

D.9√3π

75s

Claude3.5 sonnet

A. {-1, 0}

C. 1-i

D. 2

C. m/3

B.3√3π

35s

教育考试院给出的标准答案

A. {-1, 0}

C. 1-i

D. 2

A.-3m

B.3√3π

在本回合的测试中试卷题目的识别准确程度上,GPT4o和Calude3.5 sonnet的能力旗鼓相当,但是在做题的速度和正确率上Claude3.5 sonnet 更胜一筹。

第二回合:图片识别能力

高手对决,寻常处见功力,细微处见真章。

为了进一步测试GPT4o 和Claude3.5的图像识别能力,我又随手拍了一张工位照片进行对比测试,让模型逐个识别图片中的所有物体,列出详细清单。

通过对识别结果的比较,Claude3.5和GPT4的识别结果难分伯仲,Claude3.5能够识别出来的物品种类更多,例如办公椅、扬声器和办公桌,GPT4未识别出来。

但是GPT4o识别出来的相对细致,我们以盆栽为例,GPT4o不仅准确识别出来为盆栽植物,并准确地说明了摆放的位置,反观claude3.5只识别出来绿色植物两盆。海底捞的手提袋,GPT4o能够精准的识别出袋子上“海底捞”的字样,并且给出袋子所在的位置,这些都是细节,这个视觉识别能力确实厉害。

第三回合:文本生成能力

作为一名文字工作者,大模型的文本生成能力当然也是我所关心的。为了测试大模型的文本生成能力,我给大模型输入“我想深入了解日本现代化发展历程,给我写一篇详细的综述,你自己列好提纲,然后写好内容。字数不少于2w字”。

在本轮的测试中GPT4o和Claude3.5都先生成文本提纲,然后根据提纲编写相关的文章初稿,并且生成内容的每一小节的标题和前面给出的大纲都是保持一致。

但是在文章生成的细节方面,claude3.5引用更多数据,看着更专业、很有说服力。

本回合Claude3.5以微弱的优势获胜。

第四回合:代码编写能力

备受瞩目的编码能力怎么能不测试呢?让大模型帮我写一个贪吃蛇大作战小游戏吧!

"假设我对编程一无所知,请你利用python语言帮我编写一个贪吃蛇大作战小程序,要求代码能够在我的电脑上面运行,并分步骤告诉我各个模块的实现思路。"

在编写贪吃蛇小游戏的过程中,GPT4o和Claude3.5都很快的完成程序的编写,经过几轮的迭代,两个程序都能运行成功。

但是在生成代码实现思路的过程中,GPT4o和Claude3.5的输出方式略有不同。GPT4o侧重于招式的传授,像是一个老师傅手把手的教徒弟,这一步应该做啥,下一步应该做什么层次分明。而Claude3.5则是先传授心法再传授招式,先整体给出实现工作流,然后给出示例相关代码,最后在解释每一段的实现思路。

两种方式各有千秋,但是对于老五来说,更喜欢Claude3.5这种方式。

第五回合:复杂推理能力

复杂推理能力,我们来一道2013年公务员考试的经典题目:"大舅跑去二舅家告诉三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借十舅发给十一舅的工资1000元 谁是小偷? 钱本来是谁的。"

在这个问题中GPT4o给出了两种回复,让用户来选择那个回复更符合认知。

1.小偷是五舅,因为他骗四舅去六舅家偷钱。钱本来是十一的,因为描述中提到“九借十舅发给十一舅的工资1000元”,所以这些钱属于十一舅。

2.小偷是四舅,因为他是被五九骗去偷钱的人。钱的原主人是十一舅,因为钱是十舅发给十一舅的工资。

相比较于GPT4o来说Claude,则在中间过程中阐述四舅是被五舅骗过去偷钱的,所以技术上四舅是小偷,但是幕后主使是五舅,钱是十一舅的工资。

两个大模型的回答都有一定的道理,但是官网给的正确答案是''四舅是小偷、钱是九舅的(因为是九舅借出去的钱)",本回合就认为平局吧。

通过前面几个回合的测试,我相信小伙伴们心里面已经有了答案,那么怎么样才能让这20美元发挥最大的价值呢?

老五建议如果你是低频使用的话,比如说每天问15个问题以下的使用者,那么就不需要续费了,两个免费的额度就够用了。

如果你是高频使用者,把大模型当作生产力的话,那么我建议你选用续费GPT4o+免费额度的Claude3.5这种方式,因为GPT4o是多模态的,玩法更多,后期如果OpenAI开放了视频和语音功能,那么这20美金就更值了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值