GPT4o-Mini：成本优化后性能如何？

高通智匠MindCraft Al

于 2024-07-22 19:19:41 发布

阅读量939

点赞数 10

文章标签：人工智能 ai gpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85549225/article/details/140617652

版权

OpenAI发布了经过成本优化的GPT4o-Mini，成本大幅降低。本文旨在对GPT4o-Mini的性能进行深度评测，并与原版GPT4o以及国产高性价比模型Deepseek Coder进行对比。

一、成本分析

GPT4o：输入33元/百万tokens，输出100元/百万tokens
GPT4o-Mini：输入1元/百万tokens，输出4元/百万tokens
Deepseek Coder：输入1元/百万tokens，输出2元/百万tokens

从以上数据来看，GPT4o-Mini和Deepseek Coder在成本上具备显著优势，尤其是前者已近乎达到每百万tokens1元的低价位，由此可预见其潜在市场价值。

性能测试

我们基于以下三项主要任务对三个模型进行测试：

指令遵从能力
长上下文理解及推理
复杂代码实现能力

测试项目1：原生指令遵从能力
- GPT4o-Mini: 100%成功
- GPT4o: 80%成功
- deepseek coder: 100%成功

测试样本为各10次。GPT4o-Mini在此项测试中表现出色，展示了优秀的指令理解和执行能力。DeepSeek Coder表现同样稳定。GPT4o倒是有两次并没有按照格式回答。

测试项目2：长上下文数据理解及推理
GPT4o-Mini: 100%成功
GPT4o: 80%成功
deepseek coder: 100%成功

测试样本为各5次。GPT4o-Mini再次展现了稳定的性能，能够有效处理长文本并进行准确的数据分析，同样的还有DeepSeek Coder。GPT4o出现了一次字库导入错误导致代码运行失败。

测试项目3：代码实现难度

GPT4o-Mini: 10%成功，50%效果一般，40%失败
GPT4o: 80%成功，10%效果一般，10%失败
deepseek coder: 100%成功

在这项测试中，GPT4o-Mini表现相对较弱，显示出在复杂创意任务上仍有提升空间。而三次下来DeepSeek Coder竟然都很稳定。

总结

综上所述，GPT4o-Mini在某些情况下相较于原版GPT4o表现出更为严谨的回应和稳定性，但在创造性和复杂问题解决能力方面稍显不足。Deepseek Coder则在各项指标中均显示出强劲表现。GPT4o的不稳定也可能是算力分配问题所致。总之从评测GPT4o-mini确实是GPT4级别的模型，不亚于大部分国产旗舰模型，GPT4o-Mini和Deepseek Coder均为驱动智能体和工作流的高性价比选择。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。