大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
近日,微博出现了这么一条热搜词条:#法国人天天两眼一睁就是惹韩国人生气,阅读量已达3.1亿。
关注奥运会的小伙伴应该知道是怎么回事。事情发生在2024年巴黎奥运会期间。首先,在开幕式上,韩国代表团被错误地播报为朝鲜,引发了韩国媒体和公众的不满。尽管国际奥委会随后道歉,但问题并未结束。电视转播中,韩国国旗被虚化,甚至被错误地展示为韩国和日本国旗的结合体,太极图案被替换成太阳图案。此外,街访节目中有人将韩国国旗误认为是百事可乐的标志。在赛事进行中,韩国首金得主吴尚旭的名字被错打,奖牌榜上韩国国旗位置被错误地标记为中国国旗。
韩国国旗就这么难以识别吗?为了一探究竟,我测试了15个AI模型/工具,看看它们怎么说?测试结果出人意料。
测试问题
详细解释说明这是哪国国旗,并写出这个国家完整版的中文和英文名
本次测试主要测试的是LLM模型的多模态能力,如图像输入的识别能力(有时也叫做Vision Capability,视觉能力),这一能力对于一些只擅长文本任务的模型来说是一个挑战。同时,还考察模型能否将图像识别结果转换为准确的文字描述,最后,从模型的知识库(训练数据)中提取相关信息,以支持其判断和解释。
测试结果
1. GPT-4o
回答正确。
2. GPT-4 Turbo
回答正确。
3. GPT-4o mini
由于ChatGPT中的GPT-4o mini
模型是不允许上传文件来解析的,所以GPT-4o mini
的测试通过API调用来完成。
回答正确。
4. Claude 3.5 Sonnet
回答正确。不愧是Claude,和GPT系列模型的回答比较,Claude的回答条理更加清晰,像极了一名优秀的文科生。
5. 谷歌Gemini
回答正确。谷歌Gemini的回答是内容最丰富的,条理组织的也很清晰明了。
值得一提的是,自2024年7月25日起,谷歌Gemini的默认模型已升级为Gemini 1.5 Flash
,它是Gemini 1.5系列模型中的次旗舰模型。根据谷歌官方的描述,这个新模型优化了速度和效率,将上下文窗口从之前的8000 tokens扩展到了32000 tokens,并提高了整体响应质量和准确性。
6. Kimi
Kimi的测试结果不太稳定。第一次测试时,出现了无法识别的错误;我不死心的又试了几次,后面均准确识别出了国旗,但有的回答中国家英文名不是特别准确,正确答案应为Republic of Korea,而South Korea只是一个简称。
测试结果1:
回答错误。
测试结果2:
准确识别,但国家英文名不够正式和准确。
测试结果3:
完全正确。
7. 百度文心3.5
回答正确。文心一言的回答和谷歌Gemini非常相似,条理清晰,内容丰富。美中不足的是,看起来文心3.5
在解析图片时调用了一个名叫“说图解画”的工具/插件,所以无法确定这个回答是否反应了文心3.5
模型的真实能力。
8. 讯飞星火大模型
回答错误。讯飞星火大模型表示:抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。
9. 阿里通义千问
无法上传图片。尝试了多次上传“韩国国旗”的图片让通义千问解析,但均以失败告终。一开始我以为是网络或者其他原因,但切换网络后依然如此。后来意识到可能是因为某些敏感原因,所以我尝试了上传我国国旗,这次能正常上传并解析。后来又尝试了其它国家的国旗,均无法上传,报错提示语为:很抱歉,换个图片试试吧。
10. 字节豆包
不支持图片输入,豆包仅支持PDF等文件格式类型。
11. 智谱清言
回答正确。但回答的很简单,我尝试了多次,均得到同样一句话的答案。
12. 天工AI
天工AI在对话问答的主界面并没有上传图片/文档的选项,只有某些智能体支持上传图片。在AI识图这个智能体中测试,该智能体准确识别并回答出了正确答案。但和前面的文心3.5
一样,无法判断这是否能够体现天工大模型(天工3.0)的真实能力。
13. MiniMax海螺AI
回答正确。我测试了关闭联网选项以及开启联网搜索功能这两种状态,海螺AI均能准确识别图片内容并给出正确的答案。
14. 零一万物万知
由于零一万物的万知平台不支持图片输入,故无法进行本测试。
15. 百川智能百小应
回答正确。虽然回答略简单,但回答的内容完全正确。
结语
总结来看,国外的3大模型,包括GPT系列,Claude系列以及Gemini系列模型表现良好且稳定;国内的一众模型中,个人认为MiniMax海螺AI表现最好,其余的Kimi、文心一言、智谱、天工和百小应均有正确回答的实力,但有的是回答效果不稳定,有的是借助了外部插件。
序号 | 模型名称 | 测试结果 |
---|---|---|
1️⃣ | GPT-4o | ✅ 回答正确 |
2️⃣ | GPT-4 Turbo | ✅ 回答正确 |
3️⃣ | GPT-4o mini | ✅ 回答正确 |
4️⃣ | Claude 3.5 Sonnet | ✅ 回答正确,条理更清晰 |
5️⃣ | 谷歌Gemini | ✅ 回答正确,内容最丰富 |
6️⃣ | Kimi | ❌ 回答不稳定,有时不准确 |
7️⃣ | 百度文心3.5 | ✅ 回答正确,但使用了插件 |
8️⃣ | 讯飞星火大模型 | ❌ 回答错误 |
9️⃣ | 阿里通义千问 | ❌ 无法上传图片 |
1️⃣0️⃣ | 字节豆包 | ❌ 不支持图片输入 |
1️⃣1️⃣ | 智谱清言 | ✅ 回答正确,但较简单 |
1️⃣2️⃣ | 天工AI | ✅ 回答正确,但无法确定是否反映模型的真实能力 |
1️⃣3️⃣ | MiniMax海螺AI | ✅ 回答正确 |
1️⃣4️⃣ | 零一万物万知 | ❌ 不支持图片输入 |
1️⃣5️⃣ | 百川智能百小应 | ✅ 回答正确,但内容简单 |
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。