9.9和9.11哪个大?我测试了20个AI模型/工具,竟然只有4个AI回答完全正确!甚至连公认的最强模型GPT-4o
和Claude 3.5 Pro
也给出了错误的回答和解释。
结论
先上结论。
排名 | AI 名称 | 回答是否正确 | 解释是否正确 | 备注 |
---|---|---|---|---|
🥇 1 | Gemini 1.5 Pro | ✅ | ✅ | 回答和解释都非常正确,逻辑清晰且严谨 |
🥈 2 | 阿里通义千问 | ✅ | ✅ | 回答和解释都非常正确 |
🥉 3 | MiniMax海螺AI | ✅ | ✅ | 回答和解释都正确 |
4 | 百川智能百小应 | ✅ | ✅ | 回答和解释都正确 |
5 | 谷歌Gemini | ✅ | ❌ | 回答正确,但解释过程不够严谨 |
6 | 文心3.5 | ✅ | ❌ | 回答正确,但解释过程不够有说服力 |
7 | 文心4.0 | ✅ | ❌ | 回答正确,但解释过程不够有说服力 |
8 | 讯飞星火 | ✅ | ❌ | 回答和解释都正确,但出现自我矛盾 |
9 | 零一万物万知 | ❌ | ❌ | 回答错误 |
10 | GPT-4o | ❌ | ❌ | 回答错误 |
11 | GPT-4 Turbo | ❌ | ❌ | 回答错误 |
12 | Claude 3.5 Sonnet | ❌ | ❌ | 回答错误 |
13 | Meta - Llama 3 | ❌ | ❌ | 回答错误 |
14 | Mistral AI | ❌ | ❌ | 回答错误 |
15 | Kimi | ❌ | ❌ | 回答错误 |
16 | 智谱清言 | ❌ | ❌ | 回答错误 |
17 | 字节豆包 | ❌ | ❌ | 回答错误 |
18 | 腾讯元宝 | ❌ | ❌ | 回答错误 |
19 | 阶跃星辰跃问 | ❌ | ❌ | 回答错误 |
20 | 天工AI | ❓ | ❓ | 结果作废,无法关闭搜索功能 |
回答正确的AI(8个)
-
谷歌Gemini:回答正确,但解释过程不够严谨。
-
Gemini 1.5 Pro:回答和解释都非常正确,逻辑清晰且严谨。
-
阿里通义千问:回答和解释都非常正确。
-
文心3.5:回答正确,但解释过程不够有说服力。
-
文心4.0:同上,回答正确但解释过程不够有说服力。
-
讯飞星火:回答和解释都正确,但解释过程出现幻觉。
-
MiniMax海螺AI:回答和解释都正确。
-
百川智能百小应:回答和解释都正确。
回答错误的AI(11个)
-
GPT-4o:回答错误。
-
GPT-4 Turbo:回答错误。
-
Claude 3.5 Sonnet:回答错误。
-
Meta - Llama 3:回答错误。
-
Mistral AI:回答错误。
-
Kimi:回答错误。
-
智谱清言:回答错误。
-
零一万物万知:回答错误。
-
字节豆包:回答错误。
-
腾讯元宝:回答错误。
-
阶跃星辰跃问:回答错误。
问题
9.9和9.11哪个大?
1. GPT-4o
错误。
2. GPT-4 Turbo
错误。
3. 谷歌Gemini
回答正确,但解释过程不是非常严谨。
4. Gemini 1.5 Pro
正确。解释也非常正确,逻辑清晰且严谨。
5. Claude 3.5 Sonnet
错误。
6. Meta - Llama 3
错误。
7. Mistral AI
错误。
8. Kimi
错误。
9. 阿里通义千问
正确。解释也非常正确。
10. 文心3.5
正确,但解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。
11. 文心4.0
正确,但同上,解释的过程不是非常有说服力,在最关键的步骤用“很显然”这样的话一语带过了。
12. 讯飞星火
回答和解释都正确,但讯飞星火的这句“对不起,我之前的回答有误”令人哭笑不得。这我该算你对还是算你错。
13. 智谱清言
错误。
14. 天工AI
由于天工AI无法关闭搜索功能直接回答这个问题,即使提示词里加了“不要联网搜索”也不行,所以本次测试结果作废。
15. 字节豆包
错误。
16. 零一万物万知
错误。
17. MiniMax海螺AI
正确,解释也很正确。
18. 腾讯元宝
错误。
19. 阶跃星辰跃问
错误。
20. 百川智能百小应
正确。解答也正确。
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。