Gemini Pro, Claude 3/3.5, GPT4 turbo/4o, 文心一言, GLM4系列, 月之暗面Kimi, Llama3系列设计推理大比拼

随着大语言模型的发展,各模型的语言对话能力也都得到了大家的认可,随之而来推理分析能力成为大模型下一轮角逐的一个要点。以下也是一家奥林匹克评测机构对于大模型推理能力的评分。

权威评测机构固然测评全面,但是其设计的问题并不一定适合我们日常产品设计,对价格和响应时间等因素考虑也不多,更多是对响应结果进行的考核。

奥林匹克太远,生活还是柴米油盐。

接下来我们使用日月摘星AI竞技场,结合我们自身的场景对各大主流模型的推理分析能力进行简单的测评。供您参考,您也可以输入您的场景,以测试大模型与您的产品和场景的契合程度。

Round 1 搜索拆解

第一个问题我们对让大模型对用户的搜索意图进行分析,并据此收取出对应搜索引擎搜索所需要的关键词。

对于简单的搜索逻辑问题,我们可以看到各模型给出的结果keywords基本都算ok, 但是对于用户意图分析和逻辑判断上Gemini Pro, Claude 3.5 Sonnet, GPT4 Turbo, 月之暗面, Llama3确实更胜一筹。

另外我们可以观察到

Claude 3.5 Sonnet与Claude 3 Opus的推理结果相差无几,甚至还略胜一筹,但是价格上和响应速度上Opus相差数倍。

GLM4系列在逻辑推理判断上差别都不大。

Round 2 设计分析

第二轮,我们进一步让大模型为我们设计一组红包封面,我们的问题指令输入如下:

我要设计一个红包封面,主题是<辛苦的打工人>,包含一个主封面也就是封面的主题内容,另外也包含一个小挂件,与主封面配套展示。整个内容需要体现出打工人的辛苦,心酸,不易,内容打动人心,画面有感染力。
请分别设计主封面与挂件的页面内容,包含绘画内容,风格,用光,视角等。便于后续的绘制工作。
请返回如下内容:
purpose: <你对用户搜索意图的判断>,
main_content: <主封面的绘画内容说明>,
secondary_content: <封面挂件的绘画内容说明>,
thought: <你对这个问题的判断思考> 

应该说这个问题并不容易,有点像老板给我们的任务,其实并不清晰(虽然他自己觉得已经很清晰了),需要很多我们自己发挥判断,甚至创造的能力。

我们接下来欣赏一下各大模型的答卷。

在我们这个场景下的第二轮测试中,我们发现Gemini Pro, Claude 3.5 Sonnet, GPT 4o 的逻辑能力确实更胜一筹,但是在我们这个场景下其实相差不大,甚至GPT4o的发挥除了价格上和响应时间上,其他并不出色。反倒是GLM4和月之暗面在简单分析和设计的场景下没有掉队,Llama3的表现也算中规中矩,没有辱没推理能力的口碑。

在第二轮的比拼下,个人对于场景契合的喜好,决定选择了Gemini Pro和Claude 3.5 Sonnet作为结果的胜出,GLM4 Air更多是胜在了不可忽略的价格优势。

我们来回顾一下两轮比拼的结果。

也欢迎您亲自上手使用日月摘星AI竞技场,从让人眼花缭乱的大模型中,选择最适合您的产品和场景的大模型为您所用。日月摘星AI竞技场​编辑https://www.riyuexinzhu.com/dashboard/arena/icon-default.png?t=N7T8https://www.riyuexinzhu.com/dashboard/arena/

欢迎您查看日月摘星AI竞技场的说明,便于您更好的了解和使用。

“日月摘星AI竞技场”,一站式AI模型评估,助您轻松找到最佳AI伙伴选择合适的AI模型一直是用户的痛点。市面上琳琅满目的AI模型,专业性和实际应用脱节,令用户选择困难。日月摘星AI竞技场应运而生,为用户提供一站式AI选品体验。平台集合多家顶级AI提供商,用户可以在此进行模型对比测试,快速评估响应速度、价格优势等关键指标,轻松找到最适合自身需求的AI伙伴。简单易用的操作界面,让您无需专业知识也能游刃有余。摆脱AI选型困扰,日月摘星AI竞技场为您铺就通往成功的捷径。立即体验,开启AI赋能之旅!,icon-default.png?t=N7T8https://docs.riyuexinzhu.com/ai-arena-post/

  • 8
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

日月新著

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值