GPT4o-Mini:成本优化后性能如何?

OpenAI发布了经过成本优化的GPT4o-Mini,成本大幅降低。本文旨在对GPT4o-Mini的性能进行深度评测,并与原版GPT4o以及国产高性价比模型Deepseek Coder进行对比。

一、成本分析

  • GPT4o:输入33元/百万tokens,输出100元/百万tokens
  • GPT4o-Mini:输入1元/百万tokens,输出4元/百万tokens
  • Deepseek Coder:输入1元/百万tokens,输出2元/百万tokens

从以上数据来看,GPT4o-Mini和Deepseek Coder在成本上具备显著优势,尤其是前者已近乎达到每百万tokens1元的低价位,由此可预见其潜在市场价值。

  • 性能测试

我们基于以下三项主要任务对三个模型进行测试:

  1. 指令遵从能力
  2. 长上下文理解及推理
  3. 复杂代码实现能力
  • 测试项目1:原生指令遵从能力
    • GPT4o-Mini: 100%成功
    • GPT4o: 80%成功
    • deepseek coder: 100%成功

测试样本为各10次。GPT4o-Mini在此项测试中表现出色,展示了优秀的指令理解和执行能力。DeepSeek Coder表现同样稳定。GPT4o倒是有两次并没有按照格式回答。

  • 测试项目2:长上下文数据理解及推理
  • GPT4o-Mini: 100%成功
  • GPT4o: 80%成功
  • deepseek coder: 100%成功

测试样本为各5次。GPT4o-Mini再次展现了稳定的性能,能够有效处理长文本并进行准确的数据分析,同样的还有DeepSeek Coder。GPT4o出现了一次字库导入错误导致代码运行失败。

  • 测试项目3:代码实现难度
  • GPT4o-Mini: 10%成功,50%效果一般,40%失败
  • GPT4o: 80%成功,10%效果一般,10%失败
  • deepseek coder: 100%成功

在这项测试中,GPT4o-Mini表现相对较弱,显示出在复杂创意任务上仍有提升空间。而三次下来DeepSeek Coder竟然都很稳定。

总结

综上所述,GPT4o-Mini在某些情况下相较于原版GPT4o表现出更为严谨的回应和稳定性,但在创造性和复杂问题解决能力方面稍显不足。Deepseek Coder则在各项指标中均显示出强劲表现。GPT4o的不稳定也可能是算力分配问题所致。总之从评测GPT4o-mini确实是GPT4级别的模型,不亚于大部分国产旗舰模型,GPT4o-Mini和Deepseek Coder均为驱动智能体和工作流的高性价比选择。

  • 8
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值