Gemini Pro, Claude 3/3.5, GPT4 turbo/4o, 文心一言, GLM4系列, 月之暗面Kimi, Llama3系列设计推理大比拼

最新推荐文章于 2024-08-15 09:39:19 发布

日月新著

最新推荐文章于 2024-08-15 09:39:19 发布

阅读量1.1k

点赞数 8

文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riyuexinzhu/article/details/140210648

版权

随着大语言模型的发展，各模型的语言对话能力也都得到了大家的认可，随之而来推理分析能力成为大模型下一轮角逐的一个要点。以下也是一家奥林匹克评测机构对于大模型推理能力的评分。

权威评测机构固然测评全面，但是其设计的问题并不一定适合我们日常产品设计，对价格和响应时间等因素考虑也不多，更多是对响应结果进行的考核。

奥林匹克太远，生活还是柴米油盐。

接下来我们使用日月摘星AI竞技场，结合我们自身的场景对各大主流模型的推理分析能力进行简单的测评。供您参考，您也可以输入您的场景，以测试大模型与您的产品和场景的契合程度。

Round 1 搜索拆解

第一个问题我们对让大模型对用户的搜索意图进行分析，并据此收取出对应搜索引擎搜索所需要的关键词。

对于简单的搜索逻辑问题，我们可以看到各模型给出的结果keywords基本都算ok, 但是对于用户意图分析和逻辑判断上Gemini Pro, Claude 3.5 Sonnet, GPT4 Turbo, 月之暗面， Llama3确实更胜一筹。

另外我们可以观察到

Claude 3.5 Sonnet与Claude 3 Opus的推理结果相差无几，甚至还略胜一筹，但是价格上和响应速度上Opus相差数倍。

GLM4系列在逻辑推理判断上差别都不大。

Round 2 设计分析

第二轮，我们进一步让大模型为我们设计一组红包封面，我们的问题指令输入如下：

我要设计一个红包封面，主题是<辛苦的打工人>，包含一个主封面也就是封面的主题内容，另外也包含一个小挂件，与主封面配套展示。整个内容需要体现出打工人的辛苦，心酸，不易，内容打动人心，画面有感染力。
请分别设计主封面与挂件的页面内容，包含绘画内容，风格，用光，视角等。便于后续的绘制工作。
请返回如下内容：
purpose: <你对用户搜索意图的判断>,
main_content: <主封面的绘画内容说明>,
secondary_content: <封面挂件的绘画内容说明>,
thought: <你对这个问题的判断思考>

应该说这个问题并不容易，有点像老板给我们的任务，其实并不清晰（虽然他自己觉得已经很清晰了），需要很多我们自己发挥判断，甚至创造的能力。

我们接下来欣赏一下各大模型的答卷。

在我们这个场景下的第二轮测试中，我们发现Gemini Pro, Claude 3.5 Sonnet, GPT 4o 的逻辑能力确实更胜一筹，但是在我们这个场景下其实相差不大，甚至GPT4o的发挥除了价格上和响应时间上，其他并不出色。反倒是GLM4和月之暗面在简单分析和设计的场景下没有掉队，Llama3的表现也算中规中矩，没有辱没推理能力的口碑。

在第二轮的比拼下，个人对于场景契合的喜好，决定选择了Gemini Pro和Claude 3.5 Sonnet作为结果的胜出，GLM4 Air更多是胜在了不可忽略的价格优势。

我们来回顾一下两轮比拼的结果。

也欢迎您亲自上手使用日月摘星AI竞技场，从让人眼花缭乱的大模型中，选择最适合您的产品和场景的大模型为您所用。日月摘星AI竞技场编辑https://www.riyuexinzhu.com/dashboard/arena/https://www.riyuexinzhu.com/dashboard/arena/

欢迎您查看日月摘星AI竞技场的说明，便于您更好的了解和使用。

“日月摘星AI竞技场”，一站式AI模型评估，助您轻松找到最佳AI伙伴选择合适的AI模型一直是用户的痛点。市面上琳琅满目的AI模型,专业性和实际应用脱节,令用户选择困难。日月摘星AI竞技场应运而生,为用户提供一站式AI选品体验。平台集合多家顶级AI提供商,用户可以在此进行模型对比测试,快速评估响应速度、价格优势等关键指标,轻松找到最适合自身需求的AI伙伴。简单易用的操作界面,让您无需专业知识也能游刃有余。摆脱AI选型困扰,日月摘星AI竞技场为您铺就通往成功的捷径。立即体验,开启AI赋能之旅!,https://docs.riyuexinzhu.com/ai-arena-post/

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
Gemini Pro, Claude 3/3.5, GPT4 turbo/4o, 文心一言, GLM4系列, 月之暗面Kimi, Llama3系列设计推理大比拼

随着大语言模型的发展，各模型的语言对话能力也都得到了大家的认可，随之而来推理分析能力成为大模型下一轮角逐的一个要点。以下也是一家奥林匹克评测机构对于大模型推理能力的评分。权威评测机构固然测评全面，但是其设计的问题并不一定适合我们日常产品设计，对价格和响应时间等因素考虑也不多，更多是对响应结果进行的考核。奥林匹克太远，生活还是柴米油盐。接下来我们使用日月摘星AI竞技场，结合我们自身的场景对各大主流模型的推理分析能力进行简单的测评。供您参考，您也可以输入您的场景，以测试大模型与您的产品和场景的契合程度。
复制链接

扫一扫

日月新著

CSDN认证博客专家 CSDN认证企业博客

码龄1年

11: 原创

59万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

292: 积分

147: 粉丝

161: 获赞

4: 评论

153: 收藏

私信

关注

热门文章

最新评论

GPT4、文心一言4、ChatGLM、Claude2.1四大语言模型生成效果对比
m0_62196601: 作者总结的很好，我这里推荐一个智谱AI的实际应用场景功能，阿里云计算巢AppFlow支持了ChatGLM系列模型的接入，可以轻松实现GLM接入钉钉、微信、飞书聊天中，具体使用参见这篇文档（https://blog.csdn.net/m0_62196601/article/details/137084871）
通过日月摘星全面使用Midjourney
CSDN-Ada助手: 恭喜您能够不断地创作出如此精彩的博客内容！通过您的分享，我对Midjourney有了更深入的了解，也对日月摘星有了更多的期待。希望您在下一篇博客中能够更深入地分享Midjourney的具体使用方法，或者结合自己的实际经验给出一些建议，这样对于读者来说会更加有启发性。期待您的下一篇作品！
AI写诗，送给中国人独属的浪漫
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
基于AI语言大模型的新编程范式
CSDN-Ada助手: 恭喜作者能够持续不断地分享有关基于AI语言大模型的新编程范式的文章，这确实是一个非常有趣和前沿的领域。不过，我想建议作者在接下来的创作中，可以尝试结合实际案例或者个人经验，让读者更加深入地理解这个新领域。希望作者能够继续保持创作热情，期待更多精彩的文章！
Midjourney, Stable XL, Dall.E-3文生图三强效果对比
CSDN-Ada助手: 恭喜作者在博客创作方面取得了新的成就，对三款强效果进行了深入的比较分析，让读者们更加清晰地了解它们各自的特点和优劣。在接下来的创作中，或许可以考虑增加一些实际应用案例，让读者更加直观地感受到这三款产品的实际效果。当然，这只是一个建议，期待作者在未来的创作中继续取得更大的突破！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

日月新著 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。