奥运会被误报的韩国国旗，有多少AI能准确识别？结果出人意料！

本文链接：https://blog.csdn.net/weixin_40774379/article/details/140785022

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

近日，微博出现了这么一条热搜词条：#法国人天天两眼一睁就是惹韩国人生气，阅读量已达3.1亿。

关注奥运会的小伙伴应该知道是怎么回事。事情发生在2024年巴黎奥运会期间。首先，在开幕式上，韩国代表团被错误地播报为朝鲜，引发了韩国媒体和公众的不满。尽管国际奥委会随后道歉，但问题并未结束。电视转播中，韩国国旗被虚化，甚至被错误地展示为韩国和日本国旗的结合体，太极图案被替换成太阳图案。此外，街访节目中有人将韩国国旗误认为是百事可乐的标志。在赛事进行中，韩国首金得主吴尚旭的名字被错打，奖牌榜上韩国国旗位置被错误地标记为中国国旗。

韩国国旗就这么难以识别吗？为了一探究竟，我测试了15个AI模型/工具，看看它们怎么说？测试结果出人意料。

测试问题

详细解释说明这是哪国国旗，并写出这个国家完整版的中文和英文名

本次测试主要测试的是LLM模型的多模态能力，如图像输入的识别能力（有时也叫做Vision Capability，视觉能力），这一能力对于一些只擅长文本任务的模型来说是一个挑战。同时，还考察模型能否将图像识别结果转换为准确的文字描述，最后，从模型的知识库（训练数据）中提取相关信息，以支持其判断和解释。

测试结果

1. GPT-4o

回答正确。

2. GPT-4 Turbo

回答正确。

3. GPT-4o mini

由于ChatGPT中的GPT-4o mini模型是不允许上传文件来解析的，所以GPT-4o mini的测试通过API调用来完成。

回答正确。

4. Claude 3.5 Sonnet

回答正确。不愧是Claude，和GPT系列模型的回答比较，Claude的回答条理更加清晰，像极了一名优秀的文科生。

5. 谷歌Gemini

回答正确。谷歌Gemini的回答是内容最丰富的，条理组织的也很清晰明了。

值得一提的是，自2024年7月25日起，谷歌Gemini的默认模型已升级为Gemini 1.5 Flash，它是Gemini 1.5系列模型中的次旗舰模型。根据谷歌官方的描述，这个新模型优化了速度和效率，将上下文窗口从之前的8000 tokens扩展到了32000 tokens，并提高了整体响应质量和准确性。

6. Kimi

Kimi的测试结果不太稳定。第一次测试时，出现了无法识别的错误；我不死心的又试了几次，后面均准确识别出了国旗，但有的回答中国家英文名不是特别准确，正确答案应为Republic of Korea，而South Korea只是一个简称。

测试结果1：

回答错误。

测试结果2：

准确识别，但国家英文名不够正式和准确。

测试结果3：

完全正确。

7. 百度文心3.5

回答正确。文心一言的回答和谷歌Gemini非常相似，条理清晰，内容丰富。美中不足的是，看起来文心3.5在解析图片时调用了一个名叫“说图解画”的工具/插件，所以无法确定这个回答是否反应了文心3.5模型的真实能力。

8. 讯飞星火大模型

回答错误。讯飞星火大模型表示：抱歉，我还没有学习到关于这个话题的内容，无法提供相关信息。

9. 阿里通义千问

无法上传图片。尝试了多次上传“韩国国旗”的图片让通义千问解析，但均以失败告终。一开始我以为是网络或者其他原因，但切换网络后依然如此。后来意识到可能是因为某些敏感原因，所以我尝试了上传我国国旗，这次能正常上传并解析。后来又尝试了其它国家的国旗，均无法上传，报错提示语为：很抱歉，换个图片试试吧。

10. 字节豆包

不支持图片输入，豆包仅支持PDF等文件格式类型。

11. 智谱清言

回答正确。但回答的很简单，我尝试了多次，均得到同样一句话的答案。

12. 天工AI

天工AI在对话问答的主界面并没有上传图片/文档的选项，只有某些智能体支持上传图片。在AI识图这个智能体中测试，该智能体准确识别并回答出了正确答案。但和前面的文心3.5一样，无法判断这是否能够体现天工大模型（天工3.0）的真实能力。

13. MiniMax海螺AI

回答正确。我测试了关闭联网选项以及开启联网搜索功能这两种状态，海螺AI均能准确识别图片内容并给出正确的答案。

14. 零一万物万知

由于零一万物的万知平台不支持图片输入，故无法进行本测试。

15. 百川智能百小应

回答正确。虽然回答略简单，但回答的内容完全正确。

结语

总结来看，国外的3大模型，包括GPT系列，Claude系列以及Gemini系列模型表现良好且稳定；国内的一众模型中，个人认为MiniMax海螺AI表现最好，其余的Kimi、文心一言、智谱、天工和百小应均有正确回答的实力，但有的是回答效果不稳定，有的是借助了外部插件。

序号	模型名称	测试结果
1️⃣	GPT-4o	✅ 回答正确
2️⃣	GPT-4 Turbo	✅ 回答正确
3️⃣	GPT-4o mini	✅ 回答正确
4️⃣	Claude 3.5 Sonnet	✅ 回答正确，条理更清晰
5️⃣	谷歌Gemini	✅ 回答正确，内容最丰富
6️⃣	Kimi	❌ 回答不稳定，有时不准确
7️⃣	百度文心3.5	✅ 回答正确，但使用了插件
8️⃣	讯飞星火大模型	❌ 回答错误
9️⃣	阿里通义千问	❌ 无法上传图片
1️⃣0️⃣	字节豆包	❌ 不支持图片输入
1️⃣1️⃣	智谱清言	✅ 回答正确，但较简单
1️⃣2️⃣	天工AI	✅ 回答正确，但无法确定是否反映模型的真实能力
1️⃣3️⃣	MiniMax海螺AI	✅ 回答正确
1️⃣4️⃣	零一万物万知	❌ 不支持图片输入
1️⃣5️⃣	百川智能百小应	✅ 回答正确，但内容简单