智匠AI模型竞技场 —— 复杂环境物品识别

在今天的测试中,我们深入探讨了几种视觉模型在识别复杂物品方面的表现。我们选择了通义千问的qwen-vl-plus, qwen-vl-max, 智谱的GLM4V, 面壁智能的minicpm2.5和OpenAI的gpt4o这五种模型进行对比。

首先,我们选取了一张极具挑战性的杂乱图片,要求模型从左到右进行识别,并以列表形式输出结果。

测试结果如下:

这里我列出了一个表格,我们参考一下,

然后我这里列出一个表格,这次实验样本量比较小,这里仅供参考。

我们看到通义千问识别没什么问题,很多细节识别出来了,不过似乎对一些环境信息和次要信息不太敏感,不过问题不大。

GLM4V是识别效果最好得到,所有的都识别出来了,而且它对文字信息很敏感。

然后我们看GPT4o识别得也不错,塑料抽屉没识别出来。

整体来说国产模型的物品识别能力并不差,某些方面比GPT4还强一些,在推理方面GPT4o还是最强的,这个场景用不到,后面我们会再出几期做不同维度的测试。

智匠AI(MindCraft AI)始终致力于提供最优质的AI办公工具,这次的模型评测希望对您又忙,感谢大家的支持。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值