随着大语言模型的发展,各模型的语言对话能力也都得到了大家的认可,随之而来推理分析能力成为大模型下一轮角逐的一个要点。以下也是一家奥林匹克评测机构对于大模型推理能力的评分。
权威评测机构固然测评全面,但是其设计的问题并不一定适合我们日常产品设计,对价格和响应时间等因素考虑也不多,更多是对响应结果进行的考核。
奥林匹克太远,生活还是柴米油盐。
接下来我们使用日月摘星AI竞技场,结合我们自身的场景对各大主流模型的推理分析能力进行简单的测评。供您参考,您也可以输入您的场景,以测试大模型与您的产品和场景的契合程度。
Round 1 搜索拆解
第一个问题我们对让大模型对用户的搜索意图进行分析,并据此收取出对应搜索引擎搜索所需要的关键词。
对于简单的搜索逻辑问题,我们可以看到各模型给出的结果keywords基本都算ok, 但是对于用户意图分析和逻辑判断上Gemini Pro, Claude 3.5 Sonnet, GPT4 Turbo, 月之暗面, Llama3确实更胜一筹。
另外我们可以观察到
Claude 3.5 Sonnet与Claude 3 Opus的推理结果相差无几,甚至还略胜一筹,但是价格上和响应速度上Opus相差数倍。
GLM4系列在逻辑推理判断上差别都不大。
Round 2 设计分析
第二轮,我们进一步让大模型为我们设计一组红包封面,我们的问题指令输入如下:
我要设计一个红包封面,主题是<辛苦的打工人>,包含一个主封面也就是封面的主题内容,另外也包含一个小挂件,与主封面配套展示。整个内容需要体现出打工人的辛苦,心酸,不易,内容打动人心,画面有感染力。
请分别设计主封面与挂件的页面内容,包含绘画内容,风格,用光,视角等。便于后续的绘制工作。
请返回如下内容:
purpose: <你对用户搜索意图的判断>,
main_content: <主封面的绘画内容说明>,
secondary_content: <封面挂件的绘画内容说明>,
thought: <你对这个问题的判断思考>
应该说这个问题并不容易,有点像老板给我们的任务,其实并不清晰(虽然他自己觉得已经很清晰了),需要很多我们自己发挥判断,甚至创造的能力。
我们接下来欣赏一下各大模型的答卷。
在我们这个场景下的第二轮测试中,我们发现Gemini Pro, Claude 3.5 Sonnet, GPT 4o 的逻辑能力确实更胜一筹,但是在我们这个场景下其实相差不大,甚至GPT4o的发挥除了价格上和响应时间上,其他并不出色。反倒是GLM4和月之暗面在简单分析和设计的场景下没有掉队,Llama3的表现也算中规中矩,没有辱没推理能力的口碑。
在第二轮的比拼下,个人对于场景契合的喜好,决定选择了Gemini Pro和Claude 3.5 Sonnet作为结果的胜出,GLM4 Air更多是胜在了不可忽略的价格优势。
我们来回顾一下两轮比拼的结果。
也欢迎您亲自上手使用日月摘星AI竞技场,从让人眼花缭乱的大模型中,选择最适合您的产品和场景的大模型为您所用。日月摘星AI竞技场编辑https://www.riyuexinzhu.com/dashboard/arena/https://www.riyuexinzhu.com/dashboard/arena/
欢迎您查看日月摘星AI竞技场的说明,便于您更好的了解和使用。