9.9和9.11哪个大?我测试了20个AI模型/工具,竟然只有4个AI回答完全正确!甚至连公认的最强模型GPT-4o
和Claude 3.5 Pro
也给出了错误的回答和解释。
结论
先上结论。
排名 | AI 名称 | 回答是否正确 | 解释是否正确 | 备注 |
---|---|---|---|---|
🥇 1 | Gemini 1.5 Pro | ✅ | ✅ | 回答和解释都非常正确,逻辑清晰且严谨 |
🥈 2 | 阿里通义千问 | ✅ | ✅ | 回答和解释都非常正确 |
🥉 3 | MiniMax海螺AI | ✅ | ✅ | 回答和解释都正确 |
4 | 百川智能百小应 | ✅ | ✅ | 回答和解释都正确 |
5 | 谷歌Gemini | ✅ | ❌ | 回答正确,但解释过程不够严谨 |
6 | 文心3.5 | ✅ | ❌ | 回答正确,但解释过程不够有说服力 |
7 | 文心4.0 | ✅ | ❌ | 回答正确,但解释过程不够有说服力 |
8 | 讯飞星火 | ✅ | ❌ | 回答和解释都正确,但出现自我矛盾 |
9 | 零一万物万知 | ❌ | ❌ | 回答错误 |
10 | GPT-4o | ❌ | ❌ | 回答错误 |
11 | GPT-4 Turbo | ❌ | ❌ | 回答错误 |
12 | Claude 3.5 Sonnet | ❌ | ❌ | 回答错误 |
13 | Meta - Llama 3 | ❌ | ❌ | 回答错误 |
14 | Mistral AI | ❌ | ❌ | 回答错误 |
15 | Kimi | ❌ | ❌ | 回答错误 |
16 | 智谱清言 | ❌ | ❌ | 回答错误 |
17 | 字节豆包 | ❌ | ❌ | 回答错误 |
18 | 腾讯元宝 | ❌ | ❌ | 回答错误 |
19 | 阶跃星辰跃问 | ❌ | ❌ |